“又来一刀”?AI世界模型实现4人联机对战,AI实时生成游戏画面

【GameLook专稿,禁止转载!】

GameLook报道/1997年,《黄金眼007》在N64上发售,把分屏多人对战带进了客厅。近三十年后,同一张地图重新出现在屏幕上——这次,连关卡本身都是AI实时生成的。

今年5月,AI初创公司Odyssey在48小时内接连发布两款世界模型:Starchild-1和Agora-1。

Agora-1介绍: https://odyssey.ml/introducing-agora-1

Starchild-1介绍:https://odyssey.ml/introducing-starchild-1

Agora-1实现在AI生成游戏中四人联机

Starchild-1将实时音视频生成首次整合进单一世界模型;Agora-1让最多四名玩家同时进入同一个AI生成的对战场景,每人看到的第一人称画面均由模型按需渲染。尽管画面粗糙,代价高昂,且尚未经过独立验证,但某种意义上,这是AI世界模型领域首次实现真正意义上的多人共享状态。

根据官方资料,Starchild-1要解决的,是音频与视频在时间维度上天然不匹配的问题。

音频和视频在基础时间频率与信息密度上存在本质差异,在长时序生成中,任何一个模态的误差都可能迅速拉垮另一个。

主流视频生成模型(如Veo 3、Sora)的通行做法,是把声音作为后期附加的soundtrack而非参与推理的独立信号。Starchild-1选择了一条不同的路:通过因果蒸馏管道,将一个双向音视频基础模型(Ovi)改造为实时自回归模型,同时引入异步KV缓存架构,让两种模态在保持同步的前提下各自按节奏运行。

这意味着当用户实时输入语音或文字时,模型不会等到音频完整帧之后才更新视频,而是音视频各自推进、彼此感知,实现毫秒级的跨模态响应。

该模型支持四种交互模式:交互式世界探索、脚本化对话控制、会话式互动,以及旁白式陪伴。

但Odyssey团队也坦承了它的局限:场景的视觉身份与声学特征在长时序中仍会漂移,而交互式因果音视频生成目前也缺乏可量化的基准指标。换言之,如果你和模型持续交互十分钟以上,场景可能会悄悄”走样”,而研究者目前还没有统一的方式去测量这件事到底有多严重。


Agora-1面对的则是更复杂的工程问题:如何让多个身处世界不同位置的玩家,共享同一份地图状态而不产生分歧?

传统世界模型的做法是把仿真动态和画面渲染压进一个模型。Agora-1学习的是两种截然不同的功能:首先,它训练一个状态模型,直接从游戏的内部状态数据中学习玩家交互下的世界状态演化规律;其次,由一个DiT渲染模型读取这一共享状态,为每名玩家生成各自的独立视角画面。

包括物理逻辑(谁在哪里、血量是多少、弹道从何而来)交由状态模型统一裁决,渲染模型只负责把这份事实翻译成可见像素。在这个框架下,真实性的定义不再只是视觉保真度,而是当两个玩家从不同方向同时推动这个世界时,它能否保持一致。

并且由于底层游戏状态可以被直接操控,据悉Agora-1可以在保留原始游戏机制的前提下,生成全新的关卡。这意味着世界模型”学会了规则”,而非只是记住了原始场景。

尽管Odyssey也承认,”今天Agora-1的状态模型相对简单”,并非架构上的根本瓶颈,但确实是当前的实际能力边界。


Odyssey 创始人和研究人员 Jeff Hawke, Jenny Seidenschwarz, Vighnesh Birodkar

而在技术之上,理解Agora-1的意义,对于游戏行业而言,谷歌的Genie 3或许是此前更广为人知的对比对象。

作为目前世界模型领域视觉表现领先的系统之一,该模型可生成720p、每秒24帧的交互环境。并且能够在数分钟的探索时间内维持连续性和逻辑一致性,是对此前短时序场景生成系统的重要超越。

但Genie 3的体验设计仍以单用户为前提,画面更精致,但世界是”你一个人的”。Odyssey的优先级与此相反:用粗糙的渲染质量换取多人共享架构的成立。

从目前行业的现状来看,对于多人体验的兼容,显然更具有实际意义。

不过Odyssey并非孤军奋战。世界模型赛道目前已相当拥挤:DeepMind的Genie 3及面向消费者的Project Genie、李飞飞创办的World Labs及其Marble产品、英伟达面向机器人场景的Cosmos,以及Meta的V-JEPA,都在从不同维度逼近同一个目标:一个能够模拟物理世界、响应多主体行为、支持长时序推理的通用仿真系统。

Project Genie公开首日,Unity股价下跌约24%,Roblox下跌约15%,Take-Two和CD Projekt也出现了明显跌幅。

市场的反应说明,资本已经开始用价格来表达一个判断:如果世界模型能够成为下一代游戏引擎,那么现有的游戏引擎公司面临的不是竞争,而是替代。


好在这家由两位自动驾驶老兵创立、目前员工约55人的公司,用2700万美元的融资,在竞争对手的重兵合围中,押注在了架构选择而非规模堆砌上。毕竟多人世界模型一大核心难点就在于维持跨玩家的一致同步状态,同时驾驭生成模型固有的概率性和动态性。

而根据LightSpeed等知名机构的观察,服务器端权威模型、将生成AI与确定性物理引擎相结合的混合方案,以及高效数据流等技术路径,都可能有助于缓解这些问题。

而Agora-1选择的”状态模型+渲染模型”解耦架构,正是这类混合思路的一种具体实现。

如若转载,请注明出处:http://www.gamelook.com.cn/2026/05/593759/

关注微信