语音AI“七声Nina”秀神技，玩家在游戏中“化声”美少女、碾压变声器

相信大家对DeNA并不陌生，但大家所熟知的形象或许是那个手握大量动漫IP，带来无数漫改手游的DeNA，却未必知道DeNA在AI领域也有非常深的造诣。

图中为DeNA x AI的部分研究

DeNA x AI部门的研究业务甚广，比如多功能水坝拦截水量的预测与高效使用、煤火电厂燃料运用最大化、摄像机图片分析、制药等。分别涉及了声音合成、深度学习、人像识别、人物追踪、数据科学、计算机视觉等等技术。

5月12日，DeNA公布了变声AI“VOICE AVATAR 七声Nina”（下简称七声Nina），AI能够将用户的声音转变为美少女的声音。产品仍在开发中，能够在电脑端与手机端通过浏览器体验该产品。

七声Nina的拟人形象。声优高田忧希为其提供了声音样本。

“七声Nina”的工作原理

简单来说，是AI对于人声信息进行提取后，经过计算重新输出语音。但是七声Nina与普通的变声器有根本性的区别。

变声器的原理是改变音频的音色与音调，从声音工程的角度上改变人声，根据调试的情况，可以变成输出各种声音，但变声器并不进行人声的识别，并且变声往往并不彻底，会留下男性声音的痕迹。

而七声Nina这一的变声AI需要对人声进行识别，提取关键信息后通过自身程序输出声音，其中并不涉及音色和音调的改变，输出的声音只属于七声Nina，由于输出的音源就是少女的声音，自然就不会有男性声音的痕迹。而这一过程需要大量的计算。

研发团队当前的方向，是进一步优化AI的情感表现、喜怒哀乐，将七声Nina的变声功能训练的更为自然。根据DeNA Enginner’s Blog的说明，AI通过PyTorch进行训练，运用了Serverless、Cold Start、FastAPI、google-cloud-firestore、Hypercorn等技术。

DeNA此次公布七声Nina，正是希望通过这次试行，让AI通过深度学习进一步积累技术经验，向下一阶段进化。

这是虚拟主播wakaba对七声Nina变声的实机演示。

可以看到，虽然眼下还有一些瑕疵，比如说话意群之间有些迟滞、部分声音仍比较机械，在说话人语速过快的时候，AI难以捕捉完整的信息，转换出的语句存在意群的缺失，但总体已经足够让人惊喜，发音算得上清晰，也能感觉到语气和感情变化。相信伴随着深度学习，七声Nina会越来越精准、生动。

化“声”美少女，“七声Nina”到底满足了哪些需求？

七声Nina的主页上表示产品适用于游戏语音、网络直播、线上约会、视频会议等场合。DeNA称产品理念为“声音的配饰”，希望消除人们生活中各种各样的障碍。

部分日本网友的评论

日本社会中，人们对于社交压力十分敏感，对于个人隐私也更为注重，因此不少人有这样的变声需要。日本各界人士都发表了看法。

网友@nanaha_redstar表示，日益成熟的变声技术能够帮助那些使用美少女人设直播，却无法出声的男性Youtuber。而“声音的配饰”这一理念非常合他心意，能够想象将来使用该功能解决各种生活障碍。

声优小岩井小鸟说，没想到人声AI的声音高出预期的自然，仅在短短几年之间，变声技术就进步了如此之多。

note.com的CXO深津贵之则表示，内容转换的精准度非常高。本来只需要用来变声即可，但DeNA却在AI互动方面也下了功夫，有趣的互动让他一下子喜欢上了产品，觉得试用过程非常愉快。他认为变声技术是今后不可或缺的技术，非常期待其发展。

然而GameLook认为，即使抛开上述需要，这样的变声AI也一定大有其市场。不止在日本，在全球都能流行，只因人类本能上就存在着一种角色扮演的愿望，这也是我们之所以对小说、电影、游戏等乐此不疲的原因，因为它们展现了一种不一样的人生，或许并不是人人渴望代入到其他故事中，但每个人一定都有过从当前生活中抽离出去的念头。

微博疯转五万余次，每个人心中都有表演欲和整蛊欲

不久前，博主“姜峰真的苟”女装并使用伪音和兄弟吃海底捞的视频破圈大热。所谓伪音，是指男性会运用女性声线。这足以说明每个人对于这类整蛊和表演的狂热喜爱。

如果说线下尚有重重限制，那么线上的人们已经卸除大部分的束缚。无数网游和单机中，操作女性角色的屏幕背后往往是堂堂八尺男儿，这种现象已经屡见不鲜，大家应该和GameLook都一样感同身受。在我们用“人妖号”对这现象进行调侃的同时，它却反映了大家在网络上忘却现实，打破枷锁的诉求。如果有朝一日像七声Nina这样的变声AI达到了足够的完成度，想必“双兔傍地走，安能辨我是雄雌？”的网络环境一定会成为现实。

声音AI相关的技术在多个领域有极大价值

GameLook此前就报道过不少与声音相关的AI技术。

其中，英国的Sonantic推出了“世界上第一个会哭的AI”——Faith，主打感情表达。用户能够使用它来为作品配音，对于演绎上不满意的台词，可以通过Sonantic进行调整，主攻的是AI配音方向，用以帮助开发者节省成本。

而英特尔公布的“Intel Bleep”技术，旨在通过AI与硬件结合的方式过滤游戏中的不文明语音，让玩家在在游戏实时聊天中避开来自其他人的脏话和骚扰，主攻的关键词屏蔽方向，用以提高用户体验。

亚洲方面，韩国的Supertone通过语音系统合成了已故的韩国知名歌手金光石的歌声，乃至于连他的家人都觉得与真人无异。这一技术不仅对于许多抱憾的歌迷而言是莫大的幸福，试想这一技术更进一步，那么至少从声音面上我们就能带回故人，或许对于部分人群的心理治疗有莫大的帮助。

而本次公布的变声AI，虽然尚未成熟，但它不止将会解决日常生活中各种特殊情景的发声障碍，更将能够满足人们个性上的追求。唯一遗憾的是，目前还没有女生转到男性声音的AI，不过有七声Nina投石问路，想必后续发展不会太困难。

除上述GameLook报道过的技术之外，还有大家日常生活中一直使用到的Siri等声音AI技术，声音AI技术已经融入了我们的生活之中。

可以看到，不论是关键字屏蔽，再现人声，或是声控系统、变声等问题，要想追求大范围的应用、良好的效果，必须依靠AI技术解决，且这些问题背后都指向了某一人群的核心需求，都是能够改变业界、甚至是造福社会的技术，是业界不容忽视的领域。

如若转载，请注明出处：http://www.gamelook.com.cn/2021/05/440815/

相关推荐