“这帮人是真的懂AI”,蔡浩宇向“10亿人虚拟世界”迈进一大步?

【GameLook专稿,禁止转载!】

GameLook报道/过去几年,蔡浩宇在公开场合说过一句话,被人反复引用:米哈游的目标,是在2030年打造出全球十亿人愿意生活在其中的虚拟世界。

当然这句话被说出来的时候,更多人当它是一个游戏公司的豪言,听起来比元宇宙的概念宏大,但落地感同样飘在空中。那时候,米哈游正处于巅峰期,大家记住的是它的收入,它的全球版图,而不是蔡浩宇说的那个”十亿人”。

但如果认真去想,一个能容纳十亿人生活的虚拟世界,首先要解决的问题是什么?

不是场景有多美,不是地图有多大,甚至不是剧情有多复杂——而是里面的人,是否是活的。

一座城市可以用数字建模,一片森林可以用算法生成,但走进这个世界的玩家,如果对面迎来的只是一个僵直的模型,说着几十年来RPG游戏里那种固定台词,嘴唇动作和情绪之间毫无关联——那这个”世界”和一张精美的壁纸,其实没有本质区别。角色必须活着,这是虚拟世界生与死的根本问题。

2026年4月9日,蔡浩宇创立的AI公司Anuttacon的团队成员,以个人名义在论文预印本平台arXiv上发布了一篇论文,同步上线项目主页。论文的名字叫做LPM 1.0:Video-based Character Performance Model——大型表演模型,该论文作者和贡献名单有24位。从论文demo演示来看,这项技术已在Anuttacon早先发布的游戏《Whispers from the Star》实际应用。

论文地址:https://arxiv.org/abs/2604.07823

项目地址: https://large-performance-model.github.io/#

这不是一个普通的视频生成模型。它的目标,是让一张静态角色图,开口说话、侧耳倾听、眉头微蹙、嘴角上扬——然后一直这样,不崩、不僵、不断,直到你不想聊为止。

如果蔡浩宇说的”十亿人虚拟世界”是一个“AI群魔乱舞时代”脚踏实地的终点,在GameLook看来LPM 1.0解决的,就是其中一道叫做”角色是否活着”的关卡。而这道关卡,比看起来要难得多。

该模型暂时闭源

表演三难困境:一个AI视频领域多年没解开的结

要理解LPM 1.0究竟做了什么,得先从一个在AI视频生成领域存在已久的矛盾说起。

研究团队在论文中将这个矛盾命名为”表演三难困境”。简单来说,目前所有的视频生成模型,都在三个核心能力之间做痛苦的取舍:表现力、实时性、长时稳定性。

要表现力,往往要牺牲速度;要速度,角色就越来越僵;要稳定,角色就容易失去灵动。而LPM 1.0试图一次性解决这三件事。

论文中花了相当大的篇幅描述数据的构建过程。他们收集了覆盖多种场景的大规模人类视频语料,经过四个阶段的层层筛选——单镜头提取、质量过滤与裁剪、对话状态识别与分段、字幕与嵌入生成。原始视频经过这一套流水线,最终保留率不足10%。

其中最有意思的一个环节,是”听”的数据问题。绝大多数类似模型只学”说话”,因为说话的视频在互联网上多得是,而一个人在认真倾听另一个人说话时的细微反应——点头、眼神微移、嘴角轻动、短暂皱眉——这类数据极为稀缺,在自然视频中占比不到10%。研究团队为此专门构建了一套三分类(说话/倾听/沉默)标注系统,并辅以Qwen3-Omni模型做语义核验,最终F1分数超过了直接用Gemini 2.5 Pro的结果。

另一个亮点是”多粒度身份参考图像”系统。过去模型只接受一张正脸照作为角色参考,导致角色一转头、一低头,模型就只能靠”猜”侧面长什么样。LPM 1.0的解决方案是同时提供三类参考:整体外观参考图、多角度身体视角参考图(最多四个方向),以及一组涵盖不同表情的面部参考图(最多八张)。这相当于在对模型说:这个人正面、侧面、笑着、皱眉,分别是这样的。

模型架构建立在DiT(扩散变换器,Diffusion Transformer)之上,以万象(Wan2.1-I2V,16B)为预训练基底,增加了约3B参数,形成一个170亿参数的模型。

架构上最核心的创新,是”交错双音频注入”设计。传统说话视频生成只处理一路音频——角色自己的声音。LPM 1.0通过在Transformer的偶数层注入”说话音频”、奇数层注入”倾听音频”的方式,让两路音频在不同层次分别影响视频生成,同时避免参数量翻倍。说话音频驱动高频的嘴部动作和节奏性肢体运动,倾听音频则关联更低频的表情漂移和身体姿态变化。

时序对齐方面,说话音频使用局部时间窗口——每帧视频只”看”与自己时间对应的那段音频,这样嘴型对位才精准。倾听音频则使用更宽的时间窗口,因为倾听者的反应往往是对整段话的语义理解,而不只是对某一帧声波的即时反射。

身份稳定性方面,多组参考图像被编码为token,直接拼接进视频token序列参与自注意力计算,并通过为不同类型的参考图设置不同的3D旋转位置编码(RoPE偏移量),让模型隐式区分”这是正面表情参考”和”这是侧身动作参考”。这种方式不引入额外可学习参数,却能在无限时长的生成过程中,持续将角色外观锚定在参考图像上。

在训练阶段,研究团队还使用了直接偏好优化(DPO)做后训练对齐——生成一批候选视频,标注哪些更好,然后用偏好数据微调模型,专门修正手部变形、四肢失真等视觉质量缺陷。

Base LPM解决了生成质量,但本质上仍是离线模型。真正的实时对话要求系统在用户还在说话时就开始生成响应的视觉,这就是Online LPM要解决的问题。

Online LPM通过知识蒸馏,将Base LPM的能力迁移到一个因果流式(causal streaming)架构上,实现每1秒视频块的逐块自回归生成。架构被分成两个部分:Backbone负责维持稳定的时序轨迹(2步去噪),Refiner在此基础上恢复高频细节(1步去噪)。

训练过程分四个阶段:ODE监督热身 → 离策略分布匹配蒸馏 → 在策略DMD(让模型从自己生成的视频中学习纠错)→ 精修网络蒸馏。整个课程式训练的核心目的是让Online LPM在自回归生成中累积误差的情况下,依然能保持轨迹稳定。

在推理效率上,系统在单张GPU上实现了每1秒视频块约700ms的生成延迟,叠加180ms的VAE解码,总体能维持24fps的实时输出。滑动窗口KV缓存和”注意力沉锚点”设计,让系统能在有限显存下支持理论上无限时长的视频生成,且随着对话延长,每步的计算量不会增加。

现有的视频生成评测基准,大多关注视频画面质量,对”角色在对话中的表现”几乎没有专门设计的评测维度。Anuttacon团队为此构建了LPM-Bench,包含1000个测试样本,覆盖说话(约400个)、倾听(约200个)、对话(约200个)、多样化动作(约100个)和角色泛化(约100个)五类场景,测试情绪覆盖78种、动作描述词5000余个。

在与当前最优模型的对比中,Base LPM在720P分辨率下与可灵Avatar-2(Kling-Avatar-2)的总体人类偏好对比为64.3%胜出,与OmniHuman-1.5为42.5%胜出;Online LPM在480P分辨率下与LiveAvatar对比为82.5%胜出,与SoulX为64.1%胜出。

赛道上的强敌,和那几个绕不开的问题

Anuttacon的这次发布,把一家此前外界几乎没有技术产出可供评价的公司,放在了聚光灯下。自然很快,有人开始把它和这个赛道上的其他玩家排在一起比较。

要知道这个赛道上,对手都不弱。

视频角色生成这个赛道,过去两年里已经被大量资金和团队涌入。前不久B站就推出了一款新的AI视频生成产品updream。

类似的还有字节跳动的Seedance,目前已经进化到能应用于影视级短片制作的阶段,可以做到从文字到完整视频的多角色、多镜头生成,并在真人短剧制作领域开始出现商业落地。

据悉,目前国内短剧的总计播放量里,来自AI短剧的占比已经超过了30%。

快手的可灵,从初期的视频生成到后来的Avatar系列,一直在做角色的数字分身应用,并且有可灵本身作为平台入口来消化用户需求。

在学术开源侧,今年阿里ATH还发布了一个名叫HappyHorse-1.0的开源角色表演模型,引起上线后迅速登顶相关测试的榜单,在社区内引发了不小关注,代表着这个领域的技术门槛在快速下降、开源力量在快速集结。

而海外方面,虽然OpenAI在Sora近期暂停了相关服务,但其积累了视频生成的底层能力,谷歌在Veo系列上的投入同样不容小觑。

和这些选手相比,Anuttacon虽然是初出茅庐,但好消息是,这也预示着其成为了一个有模有样的科技公司,而不只是游戏公司的AI部门。

它有真正的研究团队,有完整的技术论文,有系统性的基准评测,在这个细分赛道上,已经和顶尖商业产品站在了同一起点。

当然技术上虽然可圈可点,但对于Anuttacon而言,未来需要思考的问题还有很多。

这里有一个不得不说的结构性问题:字节跳动有抖音,快手有快手,这两家平台手握着中国最庞大的短视频内容消费入口。虚拟主播、AI数字人直播、AI生成短剧,这些场景里最有可能大规模商业化的应用,天然地会被平台方优先消化进自己的生态。

一个创作者或者直播团队,为什么要选用第三方的角色生成工具,而不是用平台已经内置的功能?这个问题没有容易的答案,除非第三方能在效果上拉开决定性的差距,而且价格不要贵太多。

更深的一层困境在于,字节等公司在模型训练上的持续投入几乎无上限。主流大模型训练一个版本的成本在数亿美元量级,硬件飙升为“万卡集群”才跑得动,迭代速度还越来越快。Anuttacon目前仍是一家规模在50人以内的小团队,在GameLook看来,体量决定了它不太可能走”疯狂烧钱消耗”这条路。

LPM设想的几种使用场景

那么LPM 1.0的未来是什么?在GameLook看来,目前有几条可能的路径。

第一条,也是目前信号最清晰的:技术积累,服务于自身项目。Anuttacon的首款游戏《Whispers from the Star》在Steam上发售,AI聊天产品AnuNeko已经上线,这些产品背后需要的,恰恰就是能让角色”活起来”的视觉引擎。

LPM 1.0与其说是一个对外销售的产品,不如说是一张公司技术能力的成绩单。论文本身也明确表示,目前模型权重不开源,不提供API,不对外商用。

第二条,是基于这套底层能力向上做垂直场景的工具化应用。游戏NPC、虚拟陪伴、AI讲师,这些需求是真实存在的,也是那个”十亿人虚拟世界”中不可缺少的基础设施。

但从技术展示到产品化,还有一段很长的路:找到高度契合的用户,一起打磨产品,建立销售和运营体系,形成商业闭环。这个距离,比论文上的数字要遥远得多。

第三条路,是和外部资本合作。一旦启动融资,Anuttacon在AI这个烧钱赛道上才有更充足的燃料,也将走上一条资本化的“不归路”。

但这也意味着被资本逻辑绑定,必须拿出足够快的增长来支撑估值。目前,Anuttacon尚未有公开的外部融资记录,蔡浩宇到底想不想走这一步,外界还看不到清晰的信号。

值得一提的是,Anuttacon的非上市公司身份,在吸引顶尖AI研究员这件事上构成了实质性的局限。

这个圈子里薪酬高、期权比例大,对于一个非上市公司来说,期权无法兑现的不确定性,会让顶尖人才在做选择时多一层犹豫。Anuttacon想要继续扩大技术储备,这个问题迟早需要给出答案,无论是上市、融资,还是其他方式。

当然,当下提及AI,特别是内容领域的工具,一个避不开的问题还有消费市场对AI生成内容的接受程度,在这一点上无数调研数据都已经说明事实是目前仍然非常有限的。

AI数字人看起来很像真人,但用户是否愿意长时间和它交流?付费意愿普遍偏低是现实。

但如果把视角拉长,蔡浩宇所描述的”十亿人虚拟世界”里,AI角色的存在不是可选项,而是必需品——因为这个世界无法靠有限的人力填满无限的角色互动需求。同时在线十万个人和同一个NPC说话,没有任何人力可以应付。

AI是唯一解,而LPM 1.0解决的正是这个场景中最核心的”角色表演”问题。消费市场对AI内容的接受度迟早会提升,而提升的前提是技术先到位。

从这个角度看,Anuttacon现在做的事情,是在为一个尚未成熟的市场提前备好子弹。

社区的反应:这帮人是真会啊

LPM 1.0发布后,各个社区引起的反应,大致可以分成两波。

第一波,是对模型效果的惊讶。演示视频里,一张静态的黑人男演员图片,被驱动成了一段激烈的情绪表演——眉头紧锁、嘴唇颤抖、手指用力指向观众、情绪从愤怒到委屈的转变——配上原声对白,效果之自然出乎很多人的预料。

第二波,是技术圈的冷静分析。知乎上有多个AI研究背景的用户从论文出发做了解读,反应相对克制。一个共识是:这个团队是真的,不是凑名头的。

“无限时长+实时交互,这就有点变态,这东西的上限搞不好比seedance还高(因为seedance还不知道怎么商业化,但是实时交互是可以直接落地的,别忘了米哈游是做游戏的),而且考虑到米哈游和字节的市值可能是差了两个数量级。”

至于游戏玩家群体的反应相对更情绪化。在一些米哈游相关的论坛和讨论组里,这件事被很多人解读为”蔡老板在搞大事”,言下之意是原神的那个世界,有一天可能真的会”活过来”。

如果只盯着LPM 1.0本身,它是一个技术展示,是一篇学术论文,是一张在AI视频生成领域表明站位的名片。

但如果把它放在蔡浩宇”2030年,十亿人的虚拟世界”这个背景下看,它是那条通向那个目标的路上,一道被解开的关卡。不是终点,是路过。

虚拟世界的生机从哪里来?从活生生的角色来。LPM 1.0做的,就是让那张脸,开口,倾听,然后真的活过来。

路还很长,九九八十一难才到第一难。但至少,这一难,有了一个像样的答案。

如若转载,请注明出处:http://www.gamelook.com.cn/2026/04/591194/

关注微信