“又来一刀”？AI世界模型实现4人联机对战，AI实时生成游戏画面 | 游戏大观

【GameLook专稿，禁止转载！】

GameLook报道/1997年，《黄金眼007》在N64上发售，把分屏多人对战带进了客厅。近三十年后，同一张地图重新出现在屏幕上——这次，连关卡本身都是AI实时生成的。

今年5月，AI初创公司Odyssey在48小时内接连发布两款世界模型：Starchild-1和Agora-1。

Agora-1介绍： https://odyssey.ml/introducing-agora-1

Starchild-1介绍：https://odyssey.ml/introducing-starchild-1

Agora-1实现在AI生成游戏中四人联机

Starchild-1将实时音视频生成首次整合进单一世界模型；Agora-1让最多四名玩家同时进入同一个AI生成的对战场景，每人看到的第一人称画面均由模型按需渲染。尽管画面粗糙，代价高昂，且尚未经过独立验证，但某种意义上，这是AI世界模型领域首次实现真正意义上的多人共享状态。

根据官方资料，Starchild-1要解决的，是音频与视频在时间维度上天然不匹配的问题。

音频和视频在基础时间频率与信息密度上存在本质差异，在长时序生成中，任何一个模态的误差都可能迅速拉垮另一个。

主流视频生成模型（如Veo 3、Sora）的通行做法，是把声音作为后期附加的soundtrack而非参与推理的独立信号。Starchild-1选择了一条不同的路：通过因果蒸馏管道，将一个双向音视频基础模型（Ovi）改造为实时自回归模型，同时引入异步KV缓存架构，让两种模态在保持同步的前提下各自按节奏运行。

这意味着当用户实时输入语音或文字时，模型不会等到音频完整帧之后才更新视频，而是音视频各自推进、彼此感知，实现毫秒级的跨模态响应。

该模型支持四种交互模式：交互式世界探索、脚本化对话控制、会话式互动，以及旁白式陪伴。

但Odyssey团队也坦承了它的局限：场景的视觉身份与声学特征在长时序中仍会漂移，而交互式因果音视频生成目前也缺乏可量化的基准指标。换言之，如果你和模型持续交互十分钟以上，场景可能会悄悄”走样”，而研究者目前还没有统一的方式去测量这件事到底有多严重。

Agora-1面对的则是更复杂的工程问题：如何让多个身处世界不同位置的玩家，共享同一份地图状态而不产生分歧？

传统世界模型的做法是把仿真动态和画面渲染压进一个模型。Agora-1学习的是两种截然不同的功能：首先，它训练一个状态模型，直接从游戏的内部状态数据中学习玩家交互下的世界状态演化规律；其次，由一个DiT渲染模型读取这一共享状态，为每名玩家生成各自的独立视角画面。

包括物理逻辑（谁在哪里、血量是多少、弹道从何而来）交由状态模型统一裁决，渲染模型只负责把这份事实翻译成可见像素。在这个框架下，真实性的定义不再只是视觉保真度，而是当两个玩家从不同方向同时推动这个世界时，它能否保持一致。

并且由于底层游戏状态可以被直接操控，据悉Agora-1可以在保留原始游戏机制的前提下，生成全新的关卡。这意味着世界模型”学会了规则”，而非只是记住了原始场景。

尽管Odyssey也承认，”今天Agora-1的状态模型相对简单”，并非架构上的根本瓶颈，但确实是当前的实际能力边界。

Odyssey 创始人和研究人员 Jeff Hawke, Jenny Seidenschwarz, Vighnesh Birodkar

而在技术之上，理解Agora-1的意义，对于游戏行业而言，谷歌的Genie 3或许是此前更广为人知的对比对象。

作为目前世界模型领域视觉表现领先的系统之一，该模型可生成720p、每秒24帧的交互环境。并且能够在数分钟的探索时间内维持连续性和逻辑一致性，是对此前短时序场景生成系统的重要超越。

但Genie 3的体验设计仍以单用户为前提，画面更精致，但世界是”你一个人的”。Odyssey的优先级与此相反：用粗糙的渲染质量换取多人共享架构的成立。

从目前行业的现状来看，对于多人体验的兼容，显然更具有实际意义。

不过Odyssey并非孤军奋战。世界模型赛道目前已相当拥挤：DeepMind的Genie 3及面向消费者的Project Genie、李飞飞创办的World Labs及其Marble产品、英伟达面向机器人场景的Cosmos，以及Meta的V-JEPA，都在从不同维度逼近同一个目标：一个能够模拟物理世界、响应多主体行为、支持长时序推理的通用仿真系统。

Project Genie公开首日，Unity股价下跌约24%，Roblox下跌约15%，Take-Two和CD Projekt也出现了明显跌幅。

市场的反应说明，资本已经开始用价格来表达一个判断：如果世界模型能够成为下一代游戏引擎，那么现有的游戏引擎公司面临的不是竞争，而是替代。

好在这家由两位自动驾驶老兵创立、目前员工约55人的公司，用2700万美元的融资，在竞争对手的重兵合围中，押注在了架构选择而非规模堆砌上。毕竟多人世界模型一大核心难点就在于维持跨玩家的一致同步状态，同时驾驭生成模型固有的概率性和动态性。

而根据LightSpeed等知名机构的观察，服务器端权威模型、将生成AI与确定性物理引擎相结合的混合方案，以及高效数据流等技术路径，都可能有助于缓解这些问题。

而Agora-1选择的”状态模型+渲染模型”解耦架构，正是这类混合思路的一种具体实现。

如若转载，请注明出处：http://www.gamelook.com.cn/2026/05/593759/