“这帮人是真的懂AI”，蔡浩宇向“10亿人虚拟世界”迈进一大步？

【GameLook专稿，禁止转载！】

GameLook报道/过去几年，蔡浩宇在公开场合说过一句话，被人反复引用：米哈游的目标，是在2030年打造出全球十亿人愿意生活在其中的虚拟世界。

当然这句话被说出来的时候，更多人当它是一个游戏公司的豪言，听起来比元宇宙的概念宏大，但落地感同样飘在空中。那时候，米哈游正处于巅峰期，大家记住的是它的收入，它的全球版图，而不是蔡浩宇说的那个”十亿人”。

但如果认真去想，一个能容纳十亿人生活的虚拟世界，首先要解决的问题是什么？

不是场景有多美，不是地图有多大，甚至不是剧情有多复杂——而是里面的人，是否是活的。

一座城市可以用数字建模，一片森林可以用算法生成，但走进这个世界的玩家，如果对面迎来的只是一个僵直的模型，说着几十年来RPG游戏里那种固定台词，嘴唇动作和情绪之间毫无关联——那这个”世界”和一张精美的壁纸，其实没有本质区别。角色必须活着，这是虚拟世界生与死的根本问题。

2026年4月9日，蔡浩宇创立的AI公司Anuttacon的团队成员，以个人名义在论文预印本平台arXiv上发布了一篇论文，同步上线项目主页。论文的名字叫做LPM 1.0：Video-based Character Performance Model——大型表演模型，该论文作者和贡献名单有24位。从论文demo演示来看，这项技术已在Anuttacon早先发布的游戏《Whispers from the Star》实际应用。

论文地址：https://arxiv.org/abs/2604.07823

项目地址： https://large-performance-model.github.io/#

这不是一个普通的视频生成模型。它的目标，是让一张静态角色图，开口说话、侧耳倾听、眉头微蹙、嘴角上扬——然后一直这样，不崩、不僵、不断，直到你不想聊为止。

如果蔡浩宇说的”十亿人虚拟世界”是一个“AI群魔乱舞时代”脚踏实地的终点，在GameLook看来LPM 1.0解决的，就是其中一道叫做”角色是否活着”的关卡。而这道关卡，比看起来要难得多。

该模型暂时闭源

表演三难困境：一个AI视频领域多年没解开的结

要理解LPM 1.0究竟做了什么，得先从一个在AI视频生成领域存在已久的矛盾说起。

研究团队在论文中将这个矛盾命名为”表演三难困境”。简单来说，目前所有的视频生成模型，都在三个核心能力之间做痛苦的取舍：表现力、实时性、长时稳定性。

要表现力，往往要牺牲速度；要速度，角色就越来越僵；要稳定，角色就容易失去灵动。而LPM 1.0试图一次性解决这三件事。

论文中花了相当大的篇幅描述数据的构建过程。他们收集了覆盖多种场景的大规模人类视频语料，经过四个阶段的层层筛选——单镜头提取、质量过滤与裁剪、对话状态识别与分段、字幕与嵌入生成。原始视频经过这一套流水线，最终保留率不足10%。

其中最有意思的一个环节，是”听”的数据问题。绝大多数类似模型只学”说话”，因为说话的视频在互联网上多得是，而一个人在认真倾听另一个人说话时的细微反应——点头、眼神微移、嘴角轻动、短暂皱眉——这类数据极为稀缺，在自然视频中占比不到10%。研究团队为此专门构建了一套三分类（说话/倾听/沉默）标注系统，并辅以Qwen3-Omni模型做语义核验，最终F1分数超过了直接用Gemini 2.5 Pro的结果。

另一个亮点是”多粒度身份参考图像”系统。过去模型只接受一张正脸照作为角色参考，导致角色一转头、一低头，模型就只能靠”猜”侧面长什么样。LPM 1.0的解决方案是同时提供三类参考：整体外观参考图、多角度身体视角参考图（最多四个方向），以及一组涵盖不同表情的面部参考图（最多八张）。这相当于在对模型说：这个人正面、侧面、笑着、皱眉，分别是这样的。

模型架构建立在DiT（扩散变换器，Diffusion Transformer）之上，以万象（Wan2.1-I2V，16B）为预训练基底，增加了约3B参数，形成一个170亿参数的模型。

架构上最核心的创新，是”交错双音频注入”设计。传统说话视频生成只处理一路音频——角色自己的声音。LPM 1.0通过在Transformer的偶数层注入”说话音频”、奇数层注入”倾听音频”的方式，让两路音频在不同层次分别影响视频生成，同时避免参数量翻倍。说话音频驱动高频的嘴部动作和节奏性肢体运动，倾听音频则关联更低频的表情漂移和身体姿态变化。

时序对齐方面，说话音频使用局部时间窗口——每帧视频只”看”与自己时间对应的那段音频，这样嘴型对位才精准。倾听音频则使用更宽的时间窗口，因为倾听者的反应往往是对整段话的语义理解，而不只是对某一帧声波的即时反射。

身份稳定性方面，多组参考图像被编码为token，直接拼接进视频token序列参与自注意力计算，并通过为不同类型的参考图设置不同的3D旋转位置编码（RoPE偏移量），让模型隐式区分”这是正面表情参考”和”这是侧身动作参考”。这种方式不引入额外可学习参数，却能在无限时长的生成过程中，持续将角色外观锚定在参考图像上。

在训练阶段，研究团队还使用了直接偏好优化（DPO）做后训练对齐——生成一批候选视频，标注哪些更好，然后用偏好数据微调模型，专门修正手部变形、四肢失真等视觉质量缺陷。

Base LPM解决了生成质量，但本质上仍是离线模型。真正的实时对话要求系统在用户还在说话时就开始生成响应的视觉，这就是Online LPM要解决的问题。

Online LPM通过知识蒸馏，将Base LPM的能力迁移到一个因果流式（causal streaming）架构上，实现每1秒视频块的逐块自回归生成。架构被分成两个部分：Backbone负责维持稳定的时序轨迹（2步去噪），Refiner在此基础上恢复高频细节（1步去噪）。

训练过程分四个阶段：ODE监督热身 → 离策略分布匹配蒸馏 → 在策略DMD（让模型从自己生成的视频中学习纠错）→ 精修网络蒸馏。整个课程式训练的核心目的是让Online LPM在自回归生成中累积误差的情况下，依然能保持轨迹稳定。

在推理效率上，系统在单张GPU上实现了每1秒视频块约700ms的生成延迟，叠加180ms的VAE解码，总体能维持24fps的实时输出。滑动窗口KV缓存和”注意力沉锚点”设计，让系统能在有限显存下支持理论上无限时长的视频生成，且随着对话延长，每步的计算量不会增加。

现有的视频生成评测基准，大多关注视频画面质量，对”角色在对话中的表现”几乎没有专门设计的评测维度。Anuttacon团队为此构建了LPM-Bench，包含1000个测试样本，覆盖说话（约400个）、倾听（约200个）、对话（约200个）、多样化动作（约100个）和角色泛化（约100个）五类场景，测试情绪覆盖78种、动作描述词5000余个。

在与当前最优模型的对比中，Base LPM在720P分辨率下与可灵Avatar-2（Kling-Avatar-2）的总体人类偏好对比为64.3%胜出，与OmniHuman-1.5为42.5%胜出；Online LPM在480P分辨率下与LiveAvatar对比为82.5%胜出，与SoulX为64.1%胜出。

赛道上的强敌，和那几个绕不开的问题

Anuttacon的这次发布，把一家此前外界几乎没有技术产出可供评价的公司，放在了聚光灯下。自然很快，有人开始把它和这个赛道上的其他玩家排在一起比较。

要知道这个赛道上，对手都不弱。

视频角色生成这个赛道，过去两年里已经被大量资金和团队涌入。前不久B站就推出了一款新的AI视频生成产品updream。

类似的还有字节跳动的Seedance，目前已经进化到能应用于影视级短片制作的阶段，可以做到从文字到完整视频的多角色、多镜头生成，并在真人短剧制作领域开始出现商业落地。

据悉，目前国内短剧的总计播放量里，来自AI短剧的占比已经超过了30%。

快手的可灵，从初期的视频生成到后来的Avatar系列，一直在做角色的数字分身应用，并且有可灵本身作为平台入口来消化用户需求。

在学术开源侧，今年阿里ATH还发布了一个名叫HappyHorse-1.0的开源角色表演模型，引起上线后迅速登顶相关测试的榜单，在社区内引发了不小关注，代表着这个领域的技术门槛在快速下降、开源力量在快速集结。

而海外方面，虽然OpenAI在Sora近期暂停了相关服务，但其积累了视频生成的底层能力，谷歌在Veo系列上的投入同样不容小觑。

和这些选手相比，Anuttacon虽然是初出茅庐，但好消息是，这也预示着其成为了一个有模有样的科技公司，而不只是游戏公司的AI部门。

它有真正的研究团队，有完整的技术论文，有系统性的基准评测，在这个细分赛道上，已经和顶尖商业产品站在了同一起点。

当然技术上虽然可圈可点，但对于Anuttacon而言，未来需要思考的问题还有很多。

这里有一个不得不说的结构性问题：字节跳动有抖音，快手有快手，这两家平台手握着中国最庞大的短视频内容消费入口。虚拟主播、AI数字人直播、AI生成短剧，这些场景里最有可能大规模商业化的应用，天然地会被平台方优先消化进自己的生态。

一个创作者或者直播团队，为什么要选用第三方的角色生成工具，而不是用平台已经内置的功能？这个问题没有容易的答案，除非第三方能在效果上拉开决定性的差距，而且价格不要贵太多。

更深的一层困境在于，字节等公司在模型训练上的持续投入几乎无上限。主流大模型训练一个版本的成本在数亿美元量级，硬件飙升为“万卡集群”才跑得动，迭代速度还越来越快。Anuttacon目前仍是一家规模在50人以内的小团队，在GameLook看来，体量决定了它不太可能走”疯狂烧钱消耗”这条路。

LPM设想的几种使用场景

那么LPM 1.0的未来是什么？在GameLook看来，目前有几条可能的路径。

第一条，也是目前信号最清晰的：技术积累，服务于自身项目。Anuttacon的首款游戏《Whispers from the Star》在Steam上发售，AI聊天产品AnuNeko已经上线，这些产品背后需要的，恰恰就是能让角色”活起来”的视觉引擎。

LPM 1.0与其说是一个对外销售的产品，不如说是一张公司技术能力的成绩单。论文本身也明确表示，目前模型权重不开源，不提供API，不对外商用。

第二条，是基于这套底层能力向上做垂直场景的工具化应用。游戏NPC、虚拟陪伴、AI讲师，这些需求是真实存在的，也是那个”十亿人虚拟世界”中不可缺少的基础设施。

但从技术展示到产品化，还有一段很长的路：找到高度契合的用户，一起打磨产品，建立销售和运营体系，形成商业闭环。这个距离，比论文上的数字要遥远得多。

第三条路，是和外部资本合作。一旦启动融资，Anuttacon在AI这个烧钱赛道上才有更充足的燃料，也将走上一条资本化的“不归路”。

但这也意味着被资本逻辑绑定，必须拿出足够快的增长来支撑估值。目前，Anuttacon尚未有公开的外部融资记录，蔡浩宇到底想不想走这一步，外界还看不到清晰的信号。

值得一提的是，Anuttacon的非上市公司身份，在吸引顶尖AI研究员这件事上构成了实质性的局限。

这个圈子里薪酬高、期权比例大，对于一个非上市公司来说，期权无法兑现的不确定性，会让顶尖人才在做选择时多一层犹豫。Anuttacon想要继续扩大技术储备，这个问题迟早需要给出答案，无论是上市、融资，还是其他方式。

当然，当下提及AI,特别是内容领域的工具，一个避不开的问题还有消费市场对AI生成内容的接受程度，在这一点上无数调研数据都已经说明事实是目前仍然非常有限的。

AI数字人看起来很像真人，但用户是否愿意长时间和它交流？付费意愿普遍偏低是现实。

但如果把视角拉长，蔡浩宇所描述的”十亿人虚拟世界”里，AI角色的存在不是可选项，而是必需品——因为这个世界无法靠有限的人力填满无限的角色互动需求。同时在线十万个人和同一个NPC说话，没有任何人力可以应付。

AI是唯一解，而LPM 1.0解决的正是这个场景中最核心的”角色表演”问题。消费市场对AI内容的接受度迟早会提升，而提升的前提是技术先到位。

从这个角度看，Anuttacon现在做的事情，是在为一个尚未成熟的市场提前备好子弹。

社区的反应：这帮人是真会啊

LPM 1.0发布后，各个社区引起的反应，大致可以分成两波。

第一波，是对模型效果的惊讶。演示视频里，一张静态的黑人男演员图片，被驱动成了一段激烈的情绪表演——眉头紧锁、嘴唇颤抖、手指用力指向观众、情绪从愤怒到委屈的转变——配上原声对白，效果之自然出乎很多人的预料。

第二波，是技术圈的冷静分析。知乎上有多个AI研究背景的用户从论文出发做了解读，反应相对克制。一个共识是：这个团队是真的，不是凑名头的。

“无限时长+实时交互，这就有点变态，这东西的上限搞不好比seedance还高（因为seedance还不知道怎么商业化，但是实时交互是可以直接落地的，别忘了米哈游是做游戏的），而且考虑到米哈游和字节的市值可能是差了两个数量级。”

至于游戏玩家群体的反应相对更情绪化。在一些米哈游相关的论坛和讨论组里，这件事被很多人解读为”蔡老板在搞大事”，言下之意是原神的那个世界，有一天可能真的会”活过来”。

如果只盯着LPM 1.0本身，它是一个技术展示，是一篇学术论文，是一张在AI视频生成领域表明站位的名片。

但如果把它放在蔡浩宇”2030年，十亿人的虚拟世界”这个背景下看，它是那条通向那个目标的路上，一道被解开的关卡。不是终点，是路过。

虚拟世界的生机从哪里来？从活生生的角色来。LPM 1.0做的，就是让那张脸，开口，倾听，然后真的活过来。

路还很长，九九八十一难才到第一难。但至少，这一难，有了一个像样的答案。

如若转载，请注明出处：http://www.gamelook.com.cn/2026/04/591194/

相关推荐