网易互娱AILab林悦：当游戏遇见AI

GameLook报道/4月26日~4月28日，由网易游戏学院举办的2021N.Game网易游戏开发者峰会盛大召开，本次大会将以“传承·洞见·匠心”为主题，从策划、技术、美术三个游戏研发与运营的重点方面，携手十位海内外大咖，为全球游戏热爱者传递最新鲜的游戏研发和运营经验。

在27日的大会上，网易人工智能实验室技术总监林悦进行了精彩的分享。自2013年毕业后，林悦便加入网易，主导了多项AI技术在游戏中的应用落地，在AI技术赋能游戏方面有着丰富的经验。

在活动中，林悦以“当游戏遇见AI”为主题，介绍了网易互娱AI Lab在计算机视觉，语音处理，自然语言处理，强化学习等技术上的探索。并分析了，如何利用质额技术为游戏制作效率、游戏体验以及游戏运用等方面赋能。

以下是分享实录：

林悦：大家好我是来自网易互娱AILab的林悦，很荣幸今天可以在这里给大家做一个技术分享，今天我的题目是：当游戏遇见AI。介绍的是我们网易互娱AILab是如何利用AI技术赋能游戏研发和运营的，这方面我们已经做了比较多的探索。

其实AI与游戏一直都是密不可分的，在1952年科学家们已经利用AI技术探索如何让机器打败人，最近特别有名的几个机器人还包括在围棋界搅动风云的阿尔法go、阿尔法 zero、以及在星际争霸中扬威的阿尔法star、在德扑中击败全球顶尖玩家的Pluribus。这些机器人的最终目标其实都是为了击败职业玩家，从而证明AI的决策能力和计算能力。

而实际上除了游戏AI这个方向，人们也发现像2D、3D的视觉技术以及语言处理、自然语言处理等其他一些技术，也是可以在游戏领域给玩家带来更好的体验的，这也将是AI技术更大的价值所在。

我们互娱AILab从成立以来就一直致力于把AI赋能于游戏，把技术落地，这里列的也是我们在游戏领域应用方面的一些落地的思考和洞见。

从美术资源制作到游戏体验优化到运营和营销，AI能够在游戏的各个领域赋能帮助降低开发的成本，然后大幅提高生产的品质和效率，我们希望通过领先的AI技术推动产业的技术革新，为游戏行业带来新的破局点。

网易互娱AILab在成立的时候主要目标就是降低游戏的研发成本，因为现阶段游戏研发的成本是非常高的，我们做了许多降低成本的尝试和探索，下面就给大家介绍一些具体的实践场景，也会针对某一些场景，我们会做一些简单的背后的技术的介绍。

首先我们在这里介绍的是语音驱动嘴型动画技术，因为游戏内容对于角色人设是非常看重的，这需要通过大量的剧情动画来完善整个角色的人设。

为了让角色栩栩如生，游戏公司可能会需要给这个角色录制大量的声优对白，然后当这个游戏里的角色念这些对白的时候，其实策划也是希望这些角色能有一个相应比较生动的一个面部表情和正确的嘴型的，但是这种嘴型以及面部表情的制作成本是非常高的。目前AI的技术已经可以做到根据语音生成相应的表情和嘴型的动画，从而大大的提高了美术在制作这些剧情动画时候的效率，降低了制作的成本。

像这个技术目前已经在网易的非常多游戏里面落地，像已经上线的梦幻西游三维版、哈利波特、时空中的绘旅人以及神都夜行路等等。下面我们以哈利波特的一个例子来看一下具体在游戏中这个技术是怎么样的？

大家通过这个视频可以大概了解这个技术实际在游戏里面的一个体现，然后目前的话这个技术已经非常的鲁棒（robust），它可以支持不同的引擎，像我们自研的弥赛亚、NeoX引擎，然后还有一些其他的商用引擎。以及它支持非常多的语言，像中、日、英、韩其实都是支持的，无论是说话还是歌唱，这个技术也是可以完美地去对齐整个嘴型以及生成相应的一个表情。

当有一些事业部它可能并没有对应语音的文本的时候，其实我们也是一样可以生成对应的嘴型动画的。最后就是针对不同的游戏类型，像2D3D以及像二次元、写实、古风等等，不同游戏的风格所对应的嘴型也是能生成一个比较好的效果的。

这里可以简单的介绍一下背后的一个技术，首先的话整个流程图可以看这张图。

首先我们需要去制作一些相应的嘴型的一个模板，根据像不同的语言，可能这些模板的需求是有点不一样的。然后在实际用的时候，我们可以同时输入语音以及这段语音对应的文本，通过语音识别的技术我们会按帧来做对齐，然后不同的帧它可能会对齐不同的因素，然后根据对齐的结果，我们用模板融合权重生成的算法，每一帧我们可能会计算它是由哪一些嘴型的模板融合而成，最后输出出整个嘴型动画帧。

而前面提到的我们其实也是可以不需要直接提供这个文本的，然后我们可以用另外的一个语音识别的技术，像CTC加边界检测一样也能做到自动生成嘴型的一个结果。

下一个介绍的技术是风格化头部模型生成，因为目前游戏领域中的很多Avatar，它除了写实的风格以外，其实也会存在一些像日系卡通、美式卡通、科幻还有唯美等多种不同的游戏风格。然后和真实的这些模型相比的话，其实这些风格可以参考的头部模型是比较少的，所以说这对于这些游戏的美术来说，它制作这些头部模型可能会存在很多成本比较高周期比较长流程比较慢的问题。

针对这个问题我们这边研究了一个算法，工作室只需要制作少量的符合这种他们游戏风格的这种头部模型提供给我们，我们就可以批量化地去为他们生成具有一样游戏风格的这些头部模型。

下面展示的是两个例子，第一个例子是和猎手之王的一个合作，大家可以看一下游戏提供给我们的游戏角色资源是左上角的这些图，然后实际用的时候我们输入一些真实的图像，就能生成和游戏风格头部模型一样的一些头部match，提供给游戏工作室的美术去进行微调。

然后下一个例子可能会更加清晰的去展示我们的技术，这是和故土这款游戏的一个合作。这款游戏的游戏风格脸膜可以看左上角的这些图是非常具有特点的，然后给我们提供的游戏角色资源，就像左下角的这些图一样。

我们算法生成的图大家可以看右边，把整个头部模型生成出来之后，直接带入到游戏的一些资源里面就能生成非常丰富的不同风格化的一个MPC资源。

这里也简单介绍一下整个流程，当一张图输入之后，我们可能是需要先把这个图去进行一个模板的预处理的，然后去需要做人脸的检测和人脸关键点的对齐，是一个比较常规的一个3D人脸重建的过程。

然后因为人脸重建的结果和游戏提供给我们的头部模型的拓朴，是很大几率是不一样的，所以我们这里还需要做一步叫作拓朴对齐的过程。然后下一步就是非常重要的叫做形状风格化的这一步，就是根据游戏给我们提供的脸模的风格化对我们的三d模型进行一个风格的转变，最后生成对应的文理风格化贴图，最后输出给游戏。

这里展示的就是拓朴对齐的这一步，我们重建的人脸是这样子的，然后我们游戏给我们提供的人脸的风格可能是下面这样子的，我们需要通过match Information的方法去把整这两个完全拓扑不一样的脸膜去进行一个拓扑的对齐。

再进行下一步就是根据一些特征规则和组合部件的方式，把五官去先进行一个分解，然后再按不同的五官的顺序去进行一个组合，最后添加脑壳，然后使得整个生成的形象是符合游戏风格的。

近几年，消费者的话其实也非常喜欢通过这种智能手机来直接捕捉自己的一些表情，然后通过手机的软件去制作一些虚拟角色的一个表情动画，我们也自研了我们网易互娱乐AILab的一个面部动补技术，这个技术既可以用于离线的一个表情资源的制作，也可以用于游戏中实时去捕捉玩家的一些表情，譬如说制作一些自己玩家特有的一些表情动画，然后像一些UGC的一些内容都是可以的我们这里可以看一个例子。

大家可以看到对这些细微表情的捕捉我们这边的一个面部动补技术是非常准确的，然后我们这个技术也和浙江卫视进行合作，在他们跨年晚会上为他们的虚拟形象万一提供了这样一个技术。

通过我们技术的捕捉大家可以看到整个嘴型的资源和面部的资源都是非常自然的。

整个技术的话其实是背后还是有非常多的细节的，首先我们自己完整制作了属于网易互娱AILab的一个人头的一个数据库，里面包含了500个不同通过高精度面部扫描仪得到的一个人头数据。

我们会通过整理它的布线以及它的拓朴，然后结合不同的表情机去生成构建出我们自己的一个数据库，下面的话是一个实际在做表情捕捉时候的一个流程，因为它整个求解表情系数是一个非线性优化的问题，很大程度其实它的效果是取决于人脸特征点，就是大家在下面这个图看到绿色这些点的位置是否准确来决定的，为了得到更好的效果，我们自己也研发了一个轻量级高精度的人脸关键点的最终的系统对这些细致的表情进行定位，同时针对眨眼检测、视线跟踪和舌头检测这些，我们也分别训练了不同的网络，去进行一个非常精准的一个跟踪和捕捉。

传统的动作捕捉的话会存在非常多的一个人工的环节，比如说当我们动捕完整个数据之后，后期是需要非常多的美术外包去把这些动作进行修正，因为它很可能得到的结果并不是非常的连贯或者是会有抖动的。

近年来AI其实也是可以去把大量的美术外包的工作去进行一个优化，我们这边也提出了我们自己的一个算法，在今年的SIGGRAPH上，大家到时候有兴趣可以看一下我们这篇论文，这里也写了出来，这个算法的话可以针对不同的一个动补的效果进行一个后期的优化。

这边可以展示了两个对比的例子，主要是从当噪声不一样的时候，我们的算法是明显优于目前已有的一些效果的。

看一下左边这个视频在手部的位置的捕捉的精准性以及右边的视频，当动捕出来的效果不一样的时候，目前已有的算法它的脚步是非常抖动的。而我们的算法的话，它的整个连贯性是非常好的。

下一个技术就叫做视频动补，因为前面提到了这种传统的通过硬件动补的方式其实是需要非常多的一个拍摄空间，以及有很多的这种高速的一个摄像机，还有需要演员去演绎这个东西，还有前面说的需要非常大的一个后处理。

这样子的话整个周期或者成本都是非常长非常高的，但是通过动作迁移技术，我们使用一个普通的摄像头就能把动作捕捉的过程记录下来，然后直接用算法去生成最后的动作序列，游戏就可以直接把动作序列retarget他给到他自己希望的游戏角色里面，这样子玩家可以制作自己喜欢的一些比如说胜利的庆祝动作，甚至编辑自己的一些表情动作都是可以的。

还有用于营销上的一些产出，我们这里可以看一下一个跳舞的天下这边的视频的效果

大家可以看到通过一个很简单的一个RGB视频，我们就能从RGB视频里面分析出整个动作序列，并且把它放到游戏希望放到的一个角色里面。

整个流程的话可以看这幅图，首先的话我们需要对第一帧进行一个人的一个检测，就这里的第一步detection的一个过程。然后做的就是2D点的一个关键点的定位，后面的话因为第一帧其实我们是需要去做detection去检测这个人的位置的，但是后面帧的话我们直接用一个checking的方式去跟踪整个人的位置就可以了会大大节省时间。

在2D post estimation之后的话，因为它本身是一个RGB视频，我们实际最后需要的是一个3D的结果，所以说这里还有一个3D post estimation的一个过程。得到一个3D点之后因为我们是每帧去获取结果的，所以很有可能帧与帧之间的一些信息是没有充分利用到，会导致它会有一些抖动，所以说这里有第5步就是一个refinement的过程，会把整个视频的动作进行一个平滑的处理，然后后面再把3D的结果regression到2D点原来的位置上进行一个比对以及通过一些后处理的方式，对美术比较关心的像重心、脚步、还有跨步等多个细节进行一个修正。

下面介绍了一个技术叫做自动插帧，因为对于很多二次元游戏来说的话它里面会有非常多的一个动态图，然后里面每一个动态图可能它都是需要美术去手k的。为了提升他们的速度的话，我们是开发了这样一个算法，假设原来需要手k一个1秒30帧的这样一个动画，我们只需要让它手K第一帧和最后一帧，中间的其他帧我们可以用我们的算法直接去插出来，达到一个提升效率的这样一个效果。

比如说右面展示的两个动态图，左边的话都是实际美术手k的结果右边的话就是美术，我们只用美术给我们提供的动画的第一帧和最后一帧，把中间层全是通过插帧得到的一个效果，大家看其实左右两边的效果几乎是差不多的。

下一个技术是资源超分，其实资源超分这个课题，无论是国内还是国外都有非常多的游戏公司会去做尝试。因为对于很多游戏公司来说，随着时间的推移，他们整个游戏的品质是需要提升的，对于那种旧的这种游戏的纹理资源需要去做一些升级。

然后这里展示的是国外已经开发过的一些结果，比如说像重返德国总部等等这样游戏，还有这种毁灭战士等等他们都是用这个技术去进行了一些资源的重置，使得玩家在玩游戏的时候感觉完全不一样，就像完全更新了一版。

我们也和天下这边做过一些合作，在他们的资料片里面我们把一些旧的文理资源直接通过资源超分和去噪的方式，直接帮他们对整个这些资源的纹理进行了一个升级。

左边的话就是以前游戏里面看到一个效果，右边的图其实都是新版资料片里面能看到效果。大家可以看到通过这个算法的话，整个精细度纹理的精细度是提高了非常多的，而整个过程其实都是完全由算法去实现，完全不需要美术的参与。

下一个介绍技术是和贴图变化相关的，因为现在非常多的游戏它都是需要通过卖这种服装或者是这种武器的皮肤的。很多策划的话它本身会有非常多的想法，比如说很多这种服装的想法，但是他不可能把每一个服装的想法全部都让美术去实现一遍，然后再看哪一个好再去推出，因为这样会非常的浪费成本。

我们这边就给他们提供了两个不同的工具，这两个工具分别可以直接根据比如说一些真实的图片、衣服的图片，直接我们可以把这个图片就生成一个纹理，直接放到三d模型里面，策划就可以看出服装如果在美术做出来之后大概是长什么样子的。

我们通过策划可以输入不同的他希望得到的这种武器皮肤的效果，快速地去生成最后的结果大概是怎么样的，让他可以快速地去做一个决定。

除了第一部分介绍的一些降低成本的工作以外，我们其实也会去思考第二个问题，我们怎么样去通过一些AI技术来给玩家带来一些新的游戏体验呢？

常规的一个匹配的话，其实基本上都是根据战力来去做的，但是我们发现就是说其实除了战力的均衡以外，可能有些社交上的目标的匹配也是会给游戏带来一个比较好的结果的，譬如说如果我们考虑到这批之前不认识的玩家，在打完这些比赛以后他们可能会组成小队或者去加好友，后面一直继续玩下去，这样来说对整个游戏其实也是有非常好的作用的。

所以说我们在匹配算法上其实也做了非常多优化的尝试，加入了很多的社交的目标，我们的实际的结果也发现这些加入的社交目标是非常能帮助游戏进行玩家的一个社交沉淀的。

现在非常多的游戏其实都包含了捏脸系统，几乎成了很多特别是mmorpg的一个标配，很多玩家他可能会非常多的时间在上面去进行一个捏脸，希望通过捏脸系统把自己的角色捏成自己某个idol或者是自己的样子。但是有一些玩家可能并不是非常擅长做这样的一个事情，然后我们就给这些玩家提供了一个自动生成捏脸效果的这样的一个算法，就是说玩家他只需要上传自己喜欢的idol或自己的一个图片，我们可以一键去帮他找到最优的这些捏脸参数，直接生成对应在游戏里面，它的效果大概是怎么样的，这个技术也已经落地到像一梦江湖等游戏里面。

语音交互的话现在其实已经非常常见了，所以说其实我们也很非常多的工作室去落地了像语音交互和操控这样方面的一些技术。

我们这边可以看三个例子，第一个例子是明日之后的一个例子，主要做的就是人和宠物之间的一些简单的一个沟通和交互。

除了这个例子，我们看第二个例子哈利波特的一个飞行课学习的一个例子，这个课的话它是需要玩家去念一些指定的一个咒语，然后我们需要去判断玩家念的咒语是否是匹配的。

下面有一个更加好玩的一个例子，我们为机动都市阿尔法做的一个这样的一个语音唤醒的功能，这个功能的话就是玩家他可能希望在释放某些技能的时候是通过语音操控的方式去做，然后语音操控的话他可能希望是完全是自定义匹配的，就是说它技能释放是用什么命令来驱动它的话，它完全是可以自己定义的。在实际打的时候他直接喊出来就可以了，游戏可以自动去识别它这个指令，并且去释放出相应的一个技能。

这是玩家在录他自定义的一个命令指令，这就是系统识别到是这个人在说这一段话，他就会做相应的一个操作。另外一个人念同样的话系统会判断不是本人录制的，他就不会触发。

然后相应的一个技术，其实我们也发表在语音顶会INTERSPEECH2020里面，大家有兴趣可以去看一下，这边展示的就是机动都市阿尔法的一个效果。

下一个要介绍的就是说现在很多二次元的内容是非常受欢迎的，他们游戏中也会往往去希望基于一些音乐去生成一些类似的舞蹈内容，我们基于这个需求也开发了基于音乐去生成舞蹈这样的一个功能，相关的技术也发表在今年的SIGGRAPH里面，我们这边可以看两个不同的例子，首先第一个例子是英文的舞蹈。

大家都看到整个节奏点是非常准确的，除了英文的这种，我们也是一样给handle不同的音乐类型的一个效果，这是一个中文的效果。

这个技术也目前已经应用于黑潮之上，用于生成游戏里面需要的一些舞蹈资源，只需要输入一段音乐就可以生成这些角色对应的一些舞蹈。

同时我们其实也利用非常多的NLP相关的一些技术放在游戏里面去和游戏去进行合作，譬如说一些像对联的玩法；自动写诗的玩法以及风格化昵称推荐的一些玩法，都是背后都是基于NLP的技术去给这些工作室提供技术支持的。

语音合成这一块的话也是一直我们在探索落地的技术，通过深度学习我们其实也能做到一个比较好的语音合成的效果应用于像平安京里面，像一个剧情编辑器这样的功能里面，整个剧情编辑器里面的所有的音色，玩家都是可选可用于编辑他的剧情。

同时在一些系统的提示音里面，其实我们也是可以直接通过语音合成的技术去实时的去生成，这里我们找了一个吃鸡的视频里面去简单做一些配音。

这里可以简单介绍一下我们一直以来在做的一件事情，就是说我们希望用最少的这种音频数据去做出质量比较好的一个合成的效果，我们相关的一些技术员发表在INTERSPEECH2020里面，大家有兴趣的话其实是可以去看一下，主要的做法就是我们可以利用一些没有标注的这种非平行数据去进行一个预训练，使它整体的合成效果会变得更好。

包括音色转换也是我们比较热门的一个研究方向，可以试想一下，就是说你在玩这些狼人杀游戏的时候，其实是用柯南的音色来玩的，这样会不会大大的增加游戏的趣味性呢。

音色转换技术可以比较好的去保留原来说话人的情绪以及内容，当然就是在游戏相关里面，我们可能会做很多这种游戏AI方向的尝试，包括一个非常重要的平衡性测试。

像一些赛车游戏，他在策划设计有很多不同的车辆参数以及不同的新赛道之后，他其实是非常想知道这种新的车在这种赛道里面它的表现是怎么样的。我们通过AI技术，可以非常好的去提前为这些策划生成所有的这些，不同组合赛道和不同车辆的一个最后的效果。像一些卡牌他在修改了一些数值之后，对整个游戏的平衡性影响有多大，我们也是可以快速的通过游戏AI方面的技术，去进行一个测试和给把数据反馈给策划。

当然我们也会研究了很多基于强化学习的一些技术，这里我们也简单讲一下我们当时在参加谷歌足球的比赛里面发现了一些有趣的东西。整个足球游戏其实完全是通过没有玩家数据去做学习的，我们发现 AI能自动学习出一些比较有趣的一些决策。

包括第一个过人，其实这个游戏里面是没有过人键的，但是AI能自动学会通过左右晃这样去摆脱防守队员，包括一些像下底传中这样子的一些人类可能会很自然的想到的一些技术它也是能学到的，包括它会发现通过一个反击，通过门将直接一脚直接变成单刀球去反击，以及最后的当防守的时候主动的铲球等等，这些都是由游戏AI自动通过算法去学习出来的一个结果。

最后也介绍一下我们在运营和营销方面的一些尝试和运用，比如说我们其实可以用AI技术去做像游戏类的图像文本以及语音方面的一些内容的检测净化整个游戏环境，防止玩家去上传一些不合规的图或者是说一些影响玩家体验的语音内容。

当一个新游戏上线一些新的玩法的时候，其实策划是很想去及时去知道玩家的一些反馈的，我们这边做了一个舆情的实时监控系统，就可以针对性的根据策划上线的这些新的功能，去看一下在玩家中的一些评价是怎么样的及时地去做一些调整。

还有比较受欢迎的像AI换脸，我们和非常多的一个工作室去合作过，就是说做这些这样一些营销的活动，玩家通过上传自己的照片去替换海报里面的这种人脸得到自己在游戏里面的形象的一个结果，增加整个他们的参与度和热情。

最后的话也是一个非常重要的点，就是我们会配合工作室以及游戏程序还有游戏运营在一起，利用异常行为检测以及一些视觉的技术，去打击在游戏里面存在的一些外挂的情况，来保证整个游戏环境。

以上就是我今天想跟大家分享的网易互娱AILab在这段时间做的一些赋能于游戏各个环节的一些工作，也希望未来能为大家分享出更多的这样的一个探索的结果，谢谢大家！

如若转载，请注明出处：http://www.gamelook.com.cn/2021/05/439258/

相关推荐