Meshy AI 孙杨泽晟:AI生成3D模型达雕塑级精度、超过初级建模师!
【GameLook专稿,禁止转载!】
GameLook报道/这两年,从2D美术生产、动画、代码到游戏测试、广告素材制作、客服……游戏研发到发行的每一个环节,几乎都能在AI辅助下优化制作流程,实现降本增效。唯独3D模型的生成,一直是AI没能啃下的硬骨头。
传统游戏开发中,3D模型创作往往耗时、成本高昂。虽然腾讯(混元3D)、英伟达(Edify)、谷歌(DreamFusion)等大厂和多家AI创业公司早早下场,但3D模型本身的数据复杂性,导致现阶段AI生成的3D模型品质不高、结构错误百出,很难直接应用到实际生产环节。
直到年初,中国 AI创业公司Meshy AI率先在3D模型的AI生成上实现革命性突破——能够快速生成高质量的3D模型,达到接近生产水平的结果,且Supercell、SEGA、Snap、FunPlus等公司已成为其客户。
本周在上海举行的Unite大会上,Meshy大模型产品研发负责人孙杨泽晟以《从3D建模到游戏开发加速:Meshy 如何赋能全球500万游戏开发者》为题发表演讲,分享了Meshy如何将AI无缝融入开发流程,实现3D模型开发效率的显著提升。

他提到,Meshy通过文字和图片输入就能直接生成3D资产。仅用2年时间,Meshy 累计拥有500万用户,创建超4000万个模型。最新自研3D扩散模型Meshy 6 Preview,已经达到雕塑级建模的精度。尤其是人体肌肉舒张与拉伸的塑造,以及人体解剖的精准度方面,Meshy 6 Preview已经达到、甚至超过3D初级建模师的水平。
以下是GameLook整理的完整演讲内容:

孙杨泽晟:大家好,我是孙杨泽晟,我在Meshy AI负责大模型产品的研发。今天很荣幸被Unite上海邀请来分享一下Meshy AI在如何使游戏开发变得更快,变得更好这方面做出的探索。

首先我们想讨论一个问题是:3D游戏变得越来越难做了吗?当然这个问题大家都会有自己的想法和体验,但我们从宏观数据能够看到一些相关趋势。

根据近30年来游戏产业的总收入趋势,和一款3A大作的开发成本趋势,我们可以发现:2000年至今,整个游戏产业总收入大概翻了5倍,但是一款3A大作的开发成本却翻了超过20倍——近几年开发一款3A游戏的成本增长速度远超过市场的整体供给,如果长此以往下去,高质量的游戏开发可能会变得难以负担。

这样一个差距是怎么产生的呢?首先,我们观察到的一些现象是:游戏近几年的内容量确实越来越多了,越多的内容需要越多的美术资产。一方面,这些资产需要专业艺术家来完成,需要高昂的人力和外包成本,另一方面,美术资产的开发周期也很长,包括概念设计、建模和贴图等步骤。
当然这只是现象,如果我们想透过现象看本质会发现什么?拿GTA系列举例,2002年发布的《罪恶都市》,它发售的价格是50美元;2013年发售的《GTA5》,发售的价格是60美元。价格只上涨了10美元,但这两个游戏的内容量却有天翻覆地的变化。

比如,可以看一下《罪恶都市》地图整比例放在《GTA5》大概是什么大小。《罪恶都市》在当时可能是一个内容很丰富的游戏,但放到现在的标准就远远不能达标了。这个事情的本质是因为玩家对体验和内容的需求与日俱增,使得每一个游戏公司可能都会考虑,我们怎么样去做出来更多更有创意的内容。

那么接下来想聊一下3D GenAI对此能够做什么呢?首先Meshy是3D AI市场的一个先驱者或者领军者,因为3D AI也是一个比较新的行业。我们近两年做到现在,可以说是稍微有点自信,能够跟大家一起探索这个问题。

我们这个产品实际上才两年,但是两年时间内,我们从一个看都不能看的橡皮泥质量,发展到了现在外行看上去可能接近生产水平的结果。在投资机构A16Z做出的游戏行业AI工具调查中,我们也很荣幸的作为了唯一的3D AI工具来入选。
两年发展到今天,我们现在已经有了500万用户,在百起平台上面创建了超过4000万个模型。我们提供了一系列的3D生成相关的功能,其中我们的核心还是通过文字和图片输入直接生成3D资产。

除了3D生成之外,我们也支持提示词优化和文生图这一类上游概念设计的任务,以及动画绑定、面数优化等下游资产生产相关的任务。

我们的愿景是依赖生成式AI,我们希望在未来有潜力将美术资产的周期大幅度缩短。无论是从概念到建模,到贴图到关卡……这一系列复杂又需要有多人、多个团队的流程,都能通过生成式AI来进行一个极为快速的迭代。当然这个只是我们的愿景,我觉得我们现在还是需要再多努力发展的。

这是Meshy一个界面演示,我们提供丰富的动画库,可以生成一些模型绑定动画,快速在Unity中搭建一个关卡原型,然后就可以玩了。

除了刚才提到那种风格之外,我们也我们也可以生成各种不同的风格,可以很快就能够创造出一个相对和谐的场景,来辅助我们的游戏设计。

接下来是一个大家更关心的问题。大家可能经常看到媒体上报道关于3D GenAI的进展。那么3D GenAI到底能够做到多好呢?

首先想说一下,3D GenAI并不是一个大模型或者一个神经网络,它会是一套比较复杂的,由多个模型多种算法组成的复合系统。这个大概是整个Meshy 3D AI管线的示意图。我们的核心还是这个生成式3D建模这一块。其中我们有两个大模型,包括几何生成的3D地图模型和贴图生成的技术模型,这两个模型能够让我们从贴文字或者图片,直接生成一个比较高面数的一个初始高模。
从概念端,我们除了这些资源大模型之外,也提供了图片生成与大语言模型的接入,来帮助大家更好的去迭代概念设计。生成高模之后,我们也提供了简验重拓扑,然后动画库以及材质编辑,使我们初始生成结果更接近生产可用的质量。
当然除了自研的几何的贴图生成大模型之外,我们的智能简面动画生成和智能几何编辑也都正在开发中。

接下来想大概说一下3D大模型架构。当然这里是游戏案例专场,我说这个也不是为了让大家去训练模型,而是说通过理解这些3D大模型的架构,我们其实能够更好的知道3D GenAI如何在游戏生产流程中使用。
3D大模型主要分为扩散模型和自回归模型两种。扩散模型的话,大家做过文生图可能会有一些了解,就是像Stable Diffusion这一类的模型。它的特点是会逐渐降噪成一个清晰的图片。这种扩散模型在整个3D GenAI领域是一个相对成熟的发展方向,并且各大3D GenAI产品自己的旗舰模型也都是扩散模型。
除了扩散模型之外,另一个方向是自回归模型。自回归模型比较类似我们大语言模型,它是一个一个词吐出来的。这一类模型现在也正在被学术界和工业界积极地应用到3D模型当中。这也是一个发展很快的方向。

接下来想介绍一下我们在大模型这一块的最新进展,Meshy 6 Preview是我们最新的自研3D扩散模型。我们认为它可以达到雕塑级建模的精度,在角色和有机资产上,它的表面细节更丰富,解剖更准准确,表现更生动。在硬表面资产上,我们也会让边缘更锐利,整体结构更干净。

总体来说,它相比我们的上一代模型精度和质量都有一个显著的提升。大家可以看一下Meshy 6 Preview和上一代模型对比图。

值得一提的是,刚才看到这个级别提升实际上只花了6个月。我们为什么要讲扩散模型呢?是因为扩散模型的特点是很接近扫描资产。因为扩散模型原理类似于图片生成,它是一个噪声图片慢慢变清晰,所以扩散模型在生成结果上会跟扫描资产特别的相近。
如果各位在实际游戏开发中使用过了扫描资产的话,那么用3D GenAI扩散模型生成的结果,它的应用场合、它的优劣势也会跟扫描资产无比的类似。
比如我们现在一般都会生成一个面数特别高的高模,同时它的三角形是很致密的,它并没有什么布线而言,然后它可以得到一个非常精细的结构,但是没有什么布线,并且UV展开也会类似于扫描资产的UV,不会有太多语义或者材质的区分,一定程度上它会限制我们对于这个模型基础上的后期编辑能力……当然这些优缺点跟刚才提到的扫描资产也都是共通的。

扩散模型这一类的主要优势,可能跟这张图类似,我们可以实现非常丰富的细节以及非常强大的造型能力,尤其是在复杂结构的表现上,比如这个人的各种手臂、胸部和腹部的肌肉,这个是Meshy 6 Preview生成结果。经过我们内部艺术家评定,Meshy 6 Preview在人体肌肉的舒张与拉伸的塑造,以及人体解剖的精准度方面,已经达到、甚至超过3D初级建模师的水平。

这个是扩散模型的优势,它可以在细节上塑造的很美很准确。当然扩散模型也有它的劣势,大家一般说这个文生图很难画好文字,在3D也是一样的道理。比如扩散模型生成的结果,有时候会有结构上的瑕疵或者错乱。
比如这个工业建筑物的烟筒,上面有一些奇怪的凹痕,并且也会有硬表面不够锐利的情况。像楼层之间我们应该期待它是一个完全的硬转折,但是它现在还会有一些倒角,以及结构上的规律现在难以保持。比如栏杆之间的间距,在日常建模中应该是相等的,但是由于扩散模型是通过一个噪声降噪而来的,所以它不会有那么多规律。
当然刚才也提到,我们从是从Meshy 5到6只花了6个月,所以这方面的能力我们也在逐渐改进,大家可以期待一波。

接下来再讲一下自回归模型。自回归模型原理也是比较直观的,如果大家打开过OBJ文件看一下里面是什么样的话,它就非常类似于让GPT模型直接去写一个OBJ文件。所以它相比扩散模型会非常的接近人工建模资产。
这是我们内部正在研发的一个自回归模型,生成结果可以看到,无论是零件之间的分界还是布线都是很清楚的。所以说自回归模型一般我们可以得到合理的布线。同时它对UV展开也会相对友好,它不会像扫描资产100万个面,UV展起来很头疼。
但是,用过GPT的话大家也会知道,GPT想生成一个特别长的文章会遇到上下文的问题。所以自回归模型生成的面数会有限,它没有办法生成一个几十万面以上的高模。同时,由于我们自回归模型的训练输入可能是不同的艺术家、不同风格建模的结果,所以说我们能够得到一个比较好的布线。但如果想要去极致地优化面数,那可能在自回归模型结果的基础上,我们还是要再去进行一些优化。
由于自回归模型现在还处在一个相对初级的阶段,所以它能够实现的造型复杂度和多样性会相相对较低。如果现在市面上也有一些支持自回归生成的3D GenAI产品,他们可能也难以覆盖到比较全面的资产品类,比较容易有失败的情况。

说了这些模型架构之后,接下来我想抛砖引玉,分享一个比较简单的游戏资产案例。我首先说一下,这个是我作为社区资产创作者的业余时间作品,所以它并不是Meshy跟游戏开发商官方合作,所以我这里就不透露名字。
这是一个基于Unity的模拟经营品类的游戏,这里我需要一个以现代摩天大楼为主的资产包,这里面的摩天大楼是我们手工参数化建模的。但是除了摩天大楼之外,还是需要一些其他的配置资产,比如凳子、装饰、雕塑等。
首先我用Meshy Text to 3D和lmage to 3D 生成了一些草稿,然后我可能对于每个主题会生成很多个。我在这些草稿中最终选择了这4个,都是有各自的意义的。比如这个拱廊是因为楼很高,人处在这个环境中比较容易有压迫感,所以我用一个拱廊来降低这个压迫感。比如凳子一方面比较符合现代建筑设计语言,另外一方面它也比较符合人体工学,可以让不同身高的人都比较舒适的休息。
经过这些选择之后,我通过Meshy 拿到这些资产,然后把这些资产经过一些处理,比如说检验,再比如说Substance Painter里的材质合并。因为我需要合并成为HDRP标准的格式,最终把它导入到游戏编辑器里,封装成了资产,最终这就是它在游戏里呈现的样子。

这是一些更多的截图,如果大家眼睛比较尖的话,会发现我们现在这栋建筑的原型其实就在这个图里。总体来说,用了生成式AI生成摆件这个流程,可以让我们的设计和建模时间大概减少25%~30%。
当然我们无法代替这些摩天大楼的核心设计,但是通过生成式AI一方面可以更快迭代我们的概念,一方面可以省下重复劳动工作。同时通过对AI的结果赋予意义和挑选,我们最终能让AI生成的结果和人类制作的结果一起,形成一个统一和谐的设计。当然,最终这个资产包的表现还是不错的,现在大概有超过30万人使用。

说到最后,我们最后还想展望一下未来。刚才也提到3D GenAI是一个发展非常快的领域,日新月异,每年每个季度大家都可以期待质量的跨越式提升和全新的生产能力。这里也向大家展示一下Meshy 即将发布的全新生产能力。
刚才提到我们发布的是Meshy 6预览版,在第四季度我们会发布Meshy 正式版。正式版我们得到一个突破性成果,就是能够在贴图中实现非常正确的文字渲染。
比如这个书包上的Meshy 字样,我们现在可以在3D模型中准确的还原文字。再包括这个闹钟,闹钟上1~12这些数字也都可以在贴图上复现,不会再有AI生成之后,原来清楚的文字变得非常的花和破碎的问题了。所以说,我们每年每个季度都会有全新的东西出来。

最后还是想回到这个问题,3DGenAI能让我们做出更好的游戏吗?我觉得作为一家AI公司,我不觉得我们有资格回答这个问题。真正AI和游戏技术我觉得都是相辅相成,共同发展的。未来AI在游戏行业内如何发挥越来越丰富的作用,能让越来越多人做出打动人心的作品,还需要我们和你们一起来探索。
如若转载,请注明出处:http://www.gamelook.com.cn/2025/10/580833/