2022游戏产业年会英伟达何展演讲:AI赋能实体产业

GameLook报道/2月13日,2022年游戏产业年会正式召开。在下午举行的“国际观察、游戏制作工业化升级趋势主题论坛”上,英伟达中国区Omniverse经理何展,以《下一代数字世界新趋势——注入AI和物理准确》为题进行了分享。

何展指出,英伟达认为,要想在下一代数字世界实现AI和物理准确,下一代互联网、生成式AI和技术赋能实业将会是不可或缺的趋势。而且在何展看来,有了AI的帮助和统一的平台,游戏、工业就能打破“设计孤岛”,让每个人都有可能成为数字世界的创建者,完成生产力和生产效率的跃进。

英伟达中国区Omniverse经理 何展

以下为分享实录:

大家下午好,今天分享的题目,是我们觉得下一代数字世界创建的新趋势,要注入AI和物理准确。主要三个内容:

第一个是下一代互联网(3D)的“HTML”语言-USD,这也是Omniverse拥抱的一项技术,给大家分享整个设计过程中的一些痛点。

第二个不知道在座各位是否听说,最近朋友圈7、80%都在热炒的ChatGPT?今天分享一下我们在整个native AI、生成式AI上的一些技术迭代。

最后有了这些技术,如何由这些技术去赋能实体产业,建筑、制造、汽车等等,我们做了哪些实体产业应用。

首先展示一张图,大家觉得这张图是画出来的吗?揭秘一下不是人画出来的,左下角有一行小字,这家公司叫Midtravel,其实它用了Midjourney——去年比较火的一个大型AI模型,出来之后有个Stable Dffusion模型,输入文字就能用计算机AI生成对应作品的技术。它输入的关键词是“人工智能”、“达芬奇绘画风格”,这样的关键字就生成了刚刚那张照片。

这里想向大家介绍的重点是图上展示的文字,其背后的基础和和逻辑是大型语言训练模型。大家知道GPT-3(语言模型)大概是1751个参数,非常受期待的模型GPT-4据传应该是100万亿个参数。背后都是我们的LMM大型语言模型带来的。

所以其实可以看到,今天(AI)进展已经达到了怎样的状态。

打破设计孤岛

回到今天的主题,我们想跟大家分享第一部分内容是USD。这张图非常有意思,我之前一直在做设计软件,Autodesk也是我的老东家,非常有感情。因为做这个行业十几年,每一次拜访用户的时候都会看到这样的场景,不知道在座的同行是不是有同感:去到研发中心,包括刚刚紫龙CTO介绍的,每个人都在自己的空间中用自己擅长的软件来做产品,这就形成了一个设计孤岛。

为什么叫孤岛?因为大家都在用不同的软件。用白话讲,设计师A,设计师B和C说的语言都不一样。这是一个痛点。

第二个痛点是我们发现由于软件功能的提升,包括像Maya、3ds MAX等等非常伟大的产品不断增加功能,它的文件模型、大小也变得很大。如果我们再做更多、更大的比如工厂设计,很多硬件就吃不消了。

这是现状的两个痛点,其他痛点先不讲了。我们想引入一个USD,USD来自皮克斯工作室,是用通用场景描述的一项技术。USD有非常好的特点:免费、开源,同时中立,不代表任何一家软件公司。我们选用这项技术,就能够把大家以前互相听不懂的语言放在一个频道,把大家全串起来,在一个界面下操作。

Omniverse就是基于USD创建。这张图也非常有意思,它代表着不同的设计软件做的事情,比如概念设计、材质添加、渲染、分析应力仿真、产品数据管理等等。现状就是每一个用户,每一个用户的设计组,做的事情、用的软件都不一样。

我们想打造一个平台,让Omniverse利用大家能够听得懂同样的3D语言,和每一个设计孤岛中的团队,进行实时的设计协作,解决刚刚说的设计系统问题;第二个,我们也跟Autodesk的沈老师在19年底时做过测试,Maya的文件70多GB,极限可以用USD做到几百K,解决文件的轻量化问题。

每个人都是数字世界的创建者

介绍完USD,再介绍第二个内容“生成实验”。其实,生成实验多年前在3D设计软件中已有过涉足,我们叫创成式设计。到今天发展到一个里程碑式的节点,个人也感觉非常兴奋。

给大家展示一下生成式AI的算法,大家看一下视频:通过输入的一些照片,它就生成了对应的3D模型。并且这个3D模型可以编辑材质,对于生产力和生产效率的提升会有大幅跃进。

这种算法模型叫GET3D,我们去年开源发布,大家如果感兴趣可以上GitHub下载原论文还有代码,可以实现只需要一张照片,如汽车的照片就可生成汽车模型,输入一张椅子的照片,就可以生成3D的椅子模型。

这个也是我们刚刚两个月之前做的,大家都听说过Stable Dffusion,它是扩散模型也就是做文字驱动生成内容的一个非常有名的技术平台,我们把它内嵌到了Omniverse平台中。演示左侧输入了一些关键的词条,像普通人用文字、不需要科班出身做非常复杂的3D软件操作,只需要输入文字就可以通过AI来生成对应文字语义的比如说岩石、树皮,可以实时的、快速的生成,是非常快捷的一个工具。大家可以去我们官网下载,Omniverse平台对于个人版是免费的,可以去试一试、玩一玩。

所以我们每一个人都可能成为未来的数字世界的创建者。这就是我个人感觉,GenerativeAIs生成式AI特别有意义、有价值的事。

给大家汇报一下,我们研发中心一周前给我发了一个进展,特别有意思,就说文字生成图片,那么可不可以生成纹理?

在座的Autodesk用户,包括游戏行业其实都知道纹理把它跑通了真能生成,输入文字就可以把对应文字语义的纹理通过AI生成。在不久的将来,这些功能也会开放到Omniverse里,大家看到Text to Texture整个过程全部是AI帮你做的。

我们又发现了一个特别令人振奋的结果,把生成的纹理放在3D界面,发现它还能完成物理材质和光源的匹配。不知道大家最近看了《流浪地球2》吗?我本人刷了两遍,对里面的MOSS印象非常深,咱不讨论剧情怎么样,这个过程和逻辑,其实你看它2044年、2075年整个时间线它做的什么事情,就是在去学习。到今天我们觉得(AI)实现这样的效果让人非常惊讶,已经远远超出了我个人的想象。

好,用个视频展示一下,大家想“哎你说了这么多有什么意义?它能够实现什么?”

这是我们北京的同事在过来之前帮我录了下屏,大家看右侧其实就是做室内装修的3D界面,比如设计书柜。现在这个工具能做到什么?左侧它输入了一些关键字,我要什么样的能力?然后它就自动用AI来去帮你把你输入文字input映射到了你想要做的室内设计。

比如花纹的设计、改动都是实时的,相当于只需要去输入文字。继续看后面,其实书柜后面还有照片,比如说你想做一张自己的照片,可以输入比如“弹吉他的猴子”,它就把那个照片生成了。

所以通过这个视频能看到,未来的生成式AI会帮助在建筑、娱乐、游戏、工业、制造、汽车等等不同的行业发挥非常大的价值。

技术爆发走向行业应用

因为时间的关系,我想分享最后一个内容:技术在集中爆发的时候,我们想要去更多关注的是注入物理、注入AI物理准确的技术,如何赋能实体的行业应用?

我们想做三件事、实际上是三类事情,期待着创建数字化世界的三大方向:

第一个是AI数字人,大家可能在三年前都看到过GTC——我们的创始人Jensen(黄仁勋)的那一段。当时也是刚刚开始,在去年年底我们则跑通了一个特别伟大的事情——全AI驱动。

只需要输入对数字人的一些要求,AI就可以生成对应的超写实的数字人形象,然后可以用AI合成语音驱动数字人去讲话、去开会、去跳舞、去唱歌,还有可能会去代替你做很多很多的事。

第二个方向除了人之外,大家看到的水杯、沙发、屏幕和其他物品,我们都可以做到非常逼真、符合物理学定律级别的数字物品。

然后是最难的数字工业孪生,一系列工厂级别的数字化内容。

这三个方向我们笃定用户会关注,我们也期待在这三个应用方向上做更多的AI赋能的工作,让大家从简单重复的矛盾中解脱出来。

最后,给大家展示一下我们最新的、刚刚介绍的内容类的视频合集,大家可以看一下适合哪些行业。

这个是德国铁路,我们不单单是把高铁所有的分析设计做出来,还可以分析新车行驶有危险时怎么办;这是5G城市,它可以分析基站在什么位置比较合适,既保证信号强度,又保证不会影响人体的健康;这个是类似于宜家的一家美国连锁店,我们把它全部复建好,用AR分析客流,分析所有的一系列的货架的摆放;这个是我们跟WPP合作的汽车的一些设计,包括亚马逊的物流、包括宝马的工厂,包括这一系列的我们对地球的气象的介入,如风力发电这些基本上都可以触及,让工厂更加智能化、数字化。

我们马上也要发布一个大概30类的工业的数据模型,面向机械、医疗、物流等各个行业。

其实到今天,我们想更多的去分享给客户,Omniverse可以降低门槛,让大家更快、更好的去设计心仪的作品,由游戏引申出来的很多技术赋能实体产业。今天我的内容就到这,谢谢大家!

如若转载,请注明出处:http://www.gamelook.com.cn/2023/02/510069

关注微信