把AI玩出花!网易伏羲分享:3D AIGC的8年实践、如何让游戏更好玩?
【GameLook专稿,禁止转载!】
GameLook报道/在12月19日的2025年中国游戏产业年会上,上午举行的“AI筑基.3D增效.流程提质:先进技术打造游戏竞争力新基石”论坛中,网易伏羲视觉团队负责人李林橙博士以《3D AIGC引领游戏内容智能创作的产业实践》为题进行了分享。
李林橙结合了《逆水寒》手游等项目内部的实践,分享了 AI 技术如何赋能游戏产业,重点介绍了在 3D 角色智能创建(如捏脸、时装)、3D 角色智能驱动(如表情动作迁移)以及 3D 场景智能生成三大领域的创新应用与落地实践。

以下为分享实录:
李林橙:
大家好,我是来自网易伏羲人工智能实验室的李林橙,负责图形图像方向,今天我将与大家分享我们在 3D AIGC 领域做的一些研究成果,还有产业落地的实践。

首先简单介绍一下网易伏羲。我们成立于 2017 年,是国内首个聚焦游戏行业的 AI 实验室,我们的愿景是“人工智能点亮游戏未来”。网易伏羲专注于几个方向的落地研究,除了图形图像方向,还涵盖语音技术、自然语言处理、游戏强化学习、用户画像等领域。这些年,我们累计发表顶会论文超三百余篇,相关技术研发成果已拥有专利600余项,同时也多次获得国家级科技进步奖。

我们最初聚焦游戏内场景,后来发现,游戏是极佳的人工智能孵化环境,在游戏内完成大量仿真探索后,我们将技术拓展至实体机器人领域,成立了伏羲机器人团队,深耕虚实交互、数字人、人机协作方向。目前,我们正尝试将相关技术应用于工程机械机器人等实体产品。

从 2017 年以来,围绕游戏+AI,我们陆续在行业首创过很多 AI 玩法,其中不少玩法获得了玩家的认可和喜欢。早期我们做过角色相关的智能创建,当时可能叫别的名字。后来随着 AIGC 火热,我们才发现原来这个东西就叫 AIGC。这些创新玩法还包括对战匹配、智能推荐、AI 反外挂等,以及近年来推出的智能 NPC、游戏内 AI 队友等互动玩法。
关于 AI 原生游戏,我们也在探索,但目前尚未完全成熟,今天这个环节就不展开了,本次分享我们重点聚焦在 3D AIGC 相关的几个项目:3D 角色智能创建、3D 角色智能驱动,以及 3D 场景智能生成。

第一块先说一下 3D 角色智能创建。
游戏内,玩家对角色定制化需求始终存在,无论是追求个性化表达还是沉浸感体验,都希望拥有专属角色形象。游戏厂商通常通过参数化系统满足这一需求,即通过多个滑动条控制面部不同区域(如眉毛内侧、中部、外侧)的位置、粗细、角度、颜色等连续维度,同时提供眉形、妆容等离散维度选项供玩家选择。

所以到目前为止,一线手游里大家已经卷到了只是调整脸就有大几百个参数,很多玩家也会精细化地去调整自己,把脸捏成像明星或者像自己认识的某一个人。有些人会花几个小时捏一张脸,甚至在淘宝上会有产业链,有些“捏脸师”会拿玩家参考图,精细调整参数,做出专属的面部配置参数卖给玩家,甚至捏脸可以变成单独的玩法。

在这个背景下,我们从 2018 年开始研发了一系列图像捏脸算法。通过玩家输入的单张图像,生成游戏内对应的稳定参数,让生成角色和参考图像变得非常相似。这是我们这些年陆陆续续在网易雷火各个游戏里的应用。上面一组是玩家输入,下面一组是在游戏内生成的 3D 角色。

我们从 18 年已经开始研发,当时技术还没那么成熟,AI 大模型还没发展那么兴盛。当时我们更多是用大模型之前的那波传统神经网络的方案:通过图像生成 3D 参数,结合相似度判别信息,看它和玩家输入是否相似,再去梯度反向传播,迭代优化。这么多年下来,我们一直在改进技术结构,现在这套方案已经越来越完善,相关的研究成果也发表在了 ICCV、TPAMI、AAAI 等不少国际顶会上。
除了脸部,全身形象的定制也很重要。就拿《逆水寒》手游来说,游戏里每个性别都内置了几百套时装,每套时装都有不同的款式、剪裁,还支持外套拆卸、分区染色 —— 服装被分成了几十个区域,玩家可以针对每个区域单独调颜色、调材质,个性化程度特别高。
我们在这个系统里也加了参数化技术,玩家输入参考图,AI 就能自动完成服装染色设计,贴合参考图风格的同时,还能保持较高的美观度。

到了 2023 年,随着技术发展,我们又推出了文字生成功能。一开始受限于大模型的响应速度,用的是基于 CLIP 的技术方案;后来大模型能力提升了,就换成了更大规模的模型来支撑。
因为《逆水寒》是中式古风游戏,不少玩家会输入古诗词、武侠小说里对人物形象的描述,比如 “飘逸出尘”“酷飒战士”,AI 就能根据这些文字,生成对应的面部结构、服装、发型和体型。


2023 年底,受多模态大模型的启发,我们把图像输入和文字输入这两套方案整合到了同一个框架里,实现了多模态 3D 角色创建。具体分两步走:第一步,我们使用了海量的真人图像、游戏捏脸形象、二次元形象,通过大规模预训练做了个自编码器,把所有这些面部形象都编码到同一个特征空间里;第二步,利用游戏内随机捏脸参数和对应渲染截图的配对数据,训练了一个翻译器,能把特征空间里的向量转换成捏脸参数。
这样一来,对于玩家输入的图像,都能直接通过翻译器生成参数。对于玩家的文字输入,也可以先通过生图模型从文字变成图像,再生成 3D 角色形象,效果比之前好了很多,不少玩家都反馈说,感觉智能捏脸的算法又升级了。

基于这套技术,《逆水寒》手游推出了门客系统。玩家可以上传参考图,编辑门客的形象、性格、人设,这个门客不仅能跟玩家对话、一起做任务,还能在游戏里一直陪伴着玩家。这里有个特别让人动容的点,有玩家通过上传已逝亲人的照片,在游戏里复刻亲人的形象,我们也特别荣幸,能通过技术帮他们留住这份情感。
门客主要功能是作为智能 NPC 与玩家对话,但也包含其他功能。因为游戏内有很多精美的场景,可以拍出很好的摄影作品,所以我们的门客可以根据玩家当天穿着,或者目前所在场景,利用大模型理解构图并寻找角度,给玩家拍出比较好的照片。这是门客给玩家拍摄的一些有意思的案例。

在文字创建角色的基础上,我们还做了交互式3D角色创建功能。玩家输入文字生成形象后,还能通过打字或者语音指令做精细化调整,比如 “鼻子再高一点”“脸再小一点”。这个功能的核心,是用大模型先理解玩家的意图,再结合我们自己训练的网络,分析清楚要调哪些捏脸维度、调多少,然后在低维的隐空间里编辑参数,再通过渲染图像和玩家意图的一致性判断,实现多轮互动。去年我们在《永劫无间》手游上首发了交互式捏脸,大家下载游戏就能体验。
这里有个小设计大家可以留意下,这个功能没有唤醒词,不用喊 “小度小度”,也不用按住说话,麦克风是长期开着的,持续收录玩家的声音。之所以这么设计,是因为不只是角色创建环节,在游戏对战的时候也能用 —— 玩动作类游戏时,大家跟队友交流都很直接,比如喊 “上”“撤退”“围攻”,所以我们统一做成了持续收音,系统会自动判断玩家是在跟真人聊天,还是在给游戏内角色下指令。

从 2018 年的文字、图像捏脸,到全身形象定制、交互式3D角色创建,我们的很多创新都是行业首创,还多次被央视报道,国内外不少媒体也会自发转载。更让我们开心的是,玩家对这些 AI 算法的评价都很高,社交媒体上有很多玩家会主动分享自己创建的角色形象,这也是对我们最大的认可。

第二部分是 3D 角色智能驱动。这一块我们首先做的是 3D 角色绑定(Rigging)骨骼。简单说就是根据静态的角色模型和游戏内统一的骨骼,生成模型每个顶点相对骨骼的蒙皮权重。这项技术我们最早在 2019 年就发表在了 SIGGRAPH 顶会上,后来把它做成了游戏生产环节的自动化工具。之后,腾讯等行业同行也陆续推出了类似的工具,现在 AI 智能绑定已经成了行业里普遍在用的生产环节。

角色能 “动” 之后,怎么让玩家玩得更有意思呢?这两年短视频特别火,很多玩家都想在游戏里拍短视频 —— 游戏里的场景、剧情动画都很丰富,大家会找角度、卡点做简单的剧情视频。我们最早推出了 “大宋映画” 这种手动工具,玩家能像游戏开发人员一样,编辑动作、镜头,不少准专业的创作者会用这些工具做小电影、短剧或者搞笑视频,但对普通玩家来说,这些工具的门槛还是有点高。

所以我们整合了之前做的 AI 算法,推出了 “剧组模式” 功能。玩家只要直接上传视频,AI 就能自动复刻视频里的动作、表情,转化成游戏内 3D 角色的对应表现。

这个功能不只是支持单人跳舞,还能做复杂的短剧编排。到现在为止,玩家已经通过这个系统创作了上千万部作品,在抖音、小红书等平台实现了百亿级的传播,内容涵盖了翻拍短剧、舞蹈剧情各种类型。
这个功能背后的核心技术,主要是表情迁移和动作迁移。

表情迁移方面,我们做了比较有意思的创新。以前大家做表情迁移,大多是用人脸关键点 —— 检测眼角、嘴角这些点,然后让游戏角色跟着动。但这种方式有个问题,动作和我们实际感受到的表情可能不一样,而且遇到二次元角色、动物角色,连关键点都检测不到。

所以我们换了个思路,用了对比学习的方案:我们找了海量数据,每组都有 3 张不同表情的图像,让标注者选出和另外两张差异最大的表情,通过这种方式训练出能深度理解表情语义的神经网络。也正是靠这套技术,我们连续蝉联了五届表情识别国际大赛的冠军。
动作迁移的核心逻辑和表情迁移类似,再加上分镜检测、人物检测、分割跟踪、ReID 这些技术,就能把真实视频里的动作精准迁移到游戏角色身上。
这是单人跳舞过程中的运镜,上面两个是静态结果,就是一些抽象表情包结构。我们发现挺有意思一点,虽然提供了很多拍短剧功能,但大部分玩家还是选择拍自己跳舞,或者自己跟游戏其他人物互动跳舞,或者比较简单的互动、截图。感觉这个趋势和抖音挺一致,大家都可以“秀”跳舞。

我们还做了游戏内人物和真实人物融合到一起的玩法,就比如把视频中其中一个真人抽掉,换成游戏里的人。

基于这些功能,我们在游戏里推出了 “剧组站” 板块:玩家可以把自己做的短剧存在这里,能像刷抖音一样刷视频、点赞、分享,而且所有内容都能二次编辑,想换背景、换衣服都可以。这个功能推出后,玩家的反响特别好。

最后简单说一下 3D 场景生成。

一方面是场景 AIGC,简单说就是通过多张不同角度的图像,复刻真实物体的 3D 数字孪生,让游戏里的角色能和这个物体互动。现在图像文字转 3D 生成的精度提升得很快,已经能满足中模生成的需求了;但如果要做高模,还是扫描方式的精度最高。

我们在这方面做了比较多研究工作,把针对 Corner Case(长尾/极端情况)做优化。比如青铜器带反光的东西,用传统工艺重建其实做的不会太好。我们会针对反光物体或者镂空物体做进一步技术研究,做整个高精度物体生成。

对于玩家 UGC 内容,我们也用这些 3D AIGC 大模型提供了一些玩法。比如上线了背单词玩法,背一个单词,如果背出来旁边可能会出现 3D 物体,再背一个又会出现一个。但是目前 3D AIGC 在玩家传输中还是会有一些问题。比如我创造 3D 模型,想让其他玩家看到,IO 流量瓶颈还是会有。所以我们游戏内做得比较多的是结构化 PCG 生成。

比如这边有一个 PCG 建筑系统,玩家输入文字或者图像,就能生成包含人行道布局、建筑底商布局的 3D 建筑,相似度比较高。基于游戏里已有的 3D 素材,AI 能自动生成符合玩家需求又好看的游戏庄园,还能给建议,比如哪个位置摆建筑更好看。

这边我们做了玩家地形生成,也是结构化系统。玩家可以通过简笔画形式画自己想要的地图,画简单几条曲线,比如道路、水、山。AI 会根据真实卫星高程图的学习数据,生成包含植被、桥梁的完整 3D 自然场景,玩家还能在自己创建的场景里互动、浏览。
以上就是我们在 3D AIGC 领域的核心实践。未来,网易伏羲将会继续以人工智能技术为核心,持续释放创意与技术潜力,在游戏内容智能创作的道路上不断突破,让AI成为人类创造力的无限放大器。
如若转载,请注明出处:http://www.gamelook.com.cn/2025/12/584761/