语音AI“七声Nina”秀神技,玩家在游戏中“化声”美少女、碾压变声器

相信大家对DeNA并不陌生,但大家所熟知的形象或许是那个手握大量动漫IP,带来无数漫改手游的DeNA,却未必知道DeNA在AI领域也有非常深的造诣。

图中为DeNA x AI的部分研究

DeNA x AI部门的研究业务甚广,比如多功能水坝拦截水量的预测与高效使用、煤火电厂燃料运用最大化、摄像机图片分析、制药等。分别涉及了声音合成、深度学习、人像识别、人物追踪、数据科学、计算机视觉等等技术。

5月12日,DeNA公布了变声AI“VOICE AVATAR 七声Nina”(下简称七声Nina),AI能够将用户的声音转变为美少女的声音。产品仍在开发中,能够在电脑端与手机端通过浏览器体验该产品。

七声Nina的拟人形象。声优高田忧希为其提供了声音样本。

“七声Nina”的工作原理

简单来说,是AI对于人声信息进行提取后,经过计算重新输出语音。但是七声Nina与普通的变声器有根本性的区别。

变声器的原理是改变音频的音色与音调,从声音工程的角度上改变人声,根据调试的情况,可以变成输出各种声音,但变声器并不进行人声的识别,并且变声往往并不彻底,会留下男性声音的痕迹。

而七声Nina这一的变声AI需要对人声进行识别,提取关键信息后通过自身程序输出声音,其中并不涉及音色和音调的改变,输出的声音只属于七声Nina,由于输出的音源就是少女的声音,自然就不会有男性声音的痕迹。而这一过程需要大量的计算。

研发团队当前的方向,是进一步优化AI的情感表现、喜怒哀乐,将七声Nina的变声功能训练的更为自然。根据DeNA Enginner’s Blog的说明,AI通过PyTorch进行训练,运用了Serverless、Cold Start、FastAPI、google-cloud-firestore、Hypercorn等技术。

DeNA此次公布七声Nina,正是希望通过这次试行,让AI通过深度学习进一步积累技术经验,向下一阶段进化。

这是虚拟主播wakaba对七声Nina变声的实机演示。

可以看到,虽然眼下还有一些瑕疵,比如说话意群之间有些迟滞、部分声音仍比较机械,在说话人语速过快的时候,AI难以捕捉完整的信息,转换出的语句存在意群的缺失,但总体已经足够让人惊喜,发音算得上清晰,也能感觉到语气和感情变化。相信伴随着深度学习,七声Nina会越来越精准、生动。

化“声”美少女,“七声Nina”到底满足了哪些需求?

七声Nina的主页上表示产品适用于游戏语音、网络直播、线上约会、视频会议等场合。DeNA称产品理念为“声音的配饰”,希望消除人们生活中各种各样的障碍。

部分日本网友的评论

日本社会中,人们对于社交压力十分敏感,对于个人隐私也更为注重,因此不少人有这样的变声需要。日本各界人士都发表了看法。

网友@nanaha_redstar表示,日益成熟的变声技术能够帮助那些使用美少女人设直播,却无法出声的男性Youtuber。而“声音的配饰”这一理念非常合他心意,能够想象将来使用该功能解决各种生活障碍。

声优小岩井小鸟说,没想到人声AI的声音高出预期的自然,仅在短短几年之间,变声技术就进步了如此之多。

note.com的CXO深津贵之则表示,内容转换的精准度非常高。本来只需要用来变声即可,但DeNA却在AI互动方面也下了功夫,有趣的互动让他一下子喜欢上了产品,觉得试用过程非常愉快。他认为变声技术是今后不可或缺的技术,非常期待其发展。

然而GameLook认为,即使抛开上述需要,这样的变声AI也一定大有其市场。不止在日本,在全球都能流行,只因人类本能上就存在着一种角色扮演的愿望,这也是我们之所以对小说、电影、游戏等乐此不疲的原因,因为它们展现了一种不一样的人生,或许并不是人人渴望代入到其他故事中,但每个人一定都有过从当前生活中抽离出去的念头。

微博疯转五万余次,每个人心中都有表演欲和整蛊欲

不久前,博主“姜峰真的苟”女装并使用伪音和兄弟吃海底捞的视频破圈大热。所谓伪音,是指男性会运用女性声线。这足以说明每个人对于这类整蛊和表演的狂热喜爱。

如果说线下尚有重重限制,那么线上的人们已经卸除大部分的束缚。无数网游和单机中,操作女性角色的屏幕背后往往是堂堂八尺男儿,这种现象已经屡见不鲜,大家应该和GameLook都一样感同身受。在我们用“人妖号”对这现象进行调侃的同时,它却反映了大家在网络上忘却现实,打破枷锁的诉求。如果有朝一日像七声Nina这样的变声AI达到了足够的完成度,想必“双兔傍地走,安能辨我是雄雌?”的网络环境一定会成为现实。

声音AI相关的技术在多个领域有极大价值

GameLook此前就报道过不少与声音相关的AI技术。

其中,英国的Sonantic推出了“世界上第一个会哭的AI”——Faith,主打感情表达。用户能够使用它来为作品配音,对于演绎上不满意的台词,可以通过Sonantic进行调整,主攻的是AI配音方向,用以帮助开发者节省成本。

而英特尔公布的“Intel Bleep”技术,旨在通过AI与硬件结合的方式过滤游戏中的不文明语音,让玩家在在游戏实时聊天中避开来自其他人的脏话和骚扰,主攻的关键词屏蔽方向,用以提高用户体验。

亚洲方面,韩国的Supertone通过语音系统合成了已故的韩国知名歌手金光石的歌声,乃至于连他的家人都觉得与真人无异。这一技术不仅对于许多抱憾的歌迷而言是莫大的幸福,试想这一技术更进一步,那么至少从声音面上我们就能带回故人,或许对于部分人群的心理治疗有莫大的帮助。

而本次公布的变声AI,虽然尚未成熟,但它不止将会解决日常生活中各种特殊情景的发声障碍,更将能够满足人们个性上的追求。唯一遗憾的是,目前还没有女生转到男性声音的AI,不过有七声Nina投石问路,想必后续发展不会太困难。

除上述GameLook报道过的技术之外,还有大家日常生活中一直使用到的Siri等声音AI技术,声音AI技术已经融入了我们的生活之中。

可以看到,不论是关键字屏蔽,再现人声,或是声控系统、变声等问题,要想追求大范围的应用、良好的效果,必须依靠AI技术解决,且这些问题背后都指向了某一人群的核心需求,都是能够改变业界、甚至是造福社会的技术,是业界不容忽视的领域。

如若转载,请注明出处:http://www.gamelook.com.cn/2021/05/440815

关注微信