游戏不再做歪!AI模拟千名玩家、准确率超85%,用研,测试,买量“省大钱”?

【GameLook专稿,禁止转载!】

GameLook报道/做一款游戏,最难的是什么?

某种意义上讲,不是技术,不是美术,甚至不是钱,而是决策。

据腾讯高级副总裁马晓轶此前接受Gamelook采访时表示,每个3A游戏都有1500个关键决策点,至少做对1200个才能成功。

问题是,这些决策凭什么做?大厂有用户调研团队,有A/B测试资源,有充足预算请真人玩家试玩反馈。而小团队要么抄市场验证过的爆款路线,走换皮捷径;要么靠制作人拍脑袋,赌运气。买量更夸张。为了测试哪个素材效果好,得真金白银往外砸,一个A/B测试跑下来,都能让预算捉襟见肘。

那么,这笔钱,能省吗?

海外已经有创业公司在尝试回答这个问题。比如日本的Alt.ai和Nulltitude.ai等消费者调研公司,开始用AI模拟消费者行为做测试。还有那家因为”斯坦福小镇”出圈的开发团队Simile,转身就拿了1亿美元融资,他们做的事,本质上就是在模拟人类,按照终端用途来看,它可以模拟游戏里的NPC,模拟聊天机器人,也可以模拟用户。

想象一下:你不再需要花钱请大量的真人来填问卷,而是换成算力,让AI替他们回答,这将节约多少用户调研资金、游戏研发提升多少决策效率?

当然,这种场景一个比较大的问题是:AI模拟人类,能准吗?答案是:比你想象的准得多。

图片来源:Nano Banana

近期,外媒Naavik撰文称,有多项学术研究专门验证这件事。结论出人意料——LLM(中大型语言模型)在预测人类行为这件事上,准确率可以达到85%以上。不过,研究者还做了个对比测试:让同一批人类两周后再做一遍同样的问卷,他们自己的准确率只有81%。

也就是说,在某些场景下,AI比你更了解”人类平均会怎么选”。这听起来有点反直觉,但逻辑其实不复杂。人类做问卷会受情绪、环境、当下状态影响,今天心情好选了”满意”,两周后可能就选了”一般”。AI没有这些干扰,它只是根据学到的人类行为模式给出最可能的答案。

以下是Gamelook编译naavik的完整内容:

关于生成式AI对游戏行业影响的争论,它究竟是一场革命、一场灾难,还是介于两者之间?这些争论大多集中在生产端:编程、美术、音乐和营销素材创作。

然而,大型语言模型(LLM)还有一个较少被关注的应用方向,那就是消费者研究。近期有多项研究尝试利用LLM中积累的海量数据来模拟人类行为,以期大幅降低市场调研成本。相关研究包括:

《大型语言模型用于市场研究:数据增强方法》

《用LLM模拟人类行为的挑战:因果推断视角》

《深度生成模型合成数据的去偏方法》

《1000人生成式智能体模拟》

《LLM通过语义相似度引导李克特量表评分复现人类购买意向》

研究结果喜忧参半。LLM确实能在相当程度上复现人类的回答,但也容易产生偏差,或给出过于”安全”的中庸答案。针对这一问题,研究者们已经开发出一些新方法来确保结果更接近真实的人类反应。虽然这些研究目前尚未得到广泛应用,但对于游戏团队来说,已经出现了一些可以付诸实践的具体用途。

本文将介绍其中两篇论文,分别说明各自的研究内容和结论,再谈谈如何把这些研究结果落地用起来。

本文涉及的两篇论文分别是:《1000人生成式智能体模拟》(2024)以及《LLM通过语义相似度引导李克特量表评分复现人类购买意向》(2025)。

一、1000人生成式智能体模拟

这篇论文的研究者对1052名真实人物的态度与行为进行了数字化”克隆”,目的是了解”一批多样化的个体对新公共卫生政策和信息的反应、对产品发布的态度,以及对重大冲击事件的回应”。

研究者采用了一种新颖的方法。他们没有用人口统计信息或人设描述来提示LLM,而是进行了时长约两小时的语音访谈,并将生成的访谈文字记录作为AI智能体的记忆素材。

访谈问题基于斯坦福大学的”美国人之声”项目,内容开放、范围宽泛,例如:”请讲讲你的人生故事——从童年、求学经历,到家庭与感情,以及你经历过的重要人生事件。”

研究假设是:这些丰富的人生经历数据能让智能体准确预测真实的行为反应。研究者还加入了一个名为”专家反思”的环节。他们利用访谈文字记录,指示LLM分别扮演心理学家、行为经济学家、政治学家和人口学家等领域专家,并生成相应的反思分析。智能体在回答问题时,会从记忆中检索最相关的专家意见作为参考。

研究者随后将这些智能体的表现与真实人类参与者在问卷调查、人格测试和经济博弈中的表现进行了比对。

结果如何?

问卷回答:归一化准确率85%

大五人格特征:归一化相关性80%

经济博弈:归一化相关性66%

“归一化”意味着结果是以人类基准为参照进行评分的。值得注意的是,人类自己在两周后重做同一份问卷时,准确率也只有81%。

图表:《1000人生成式模拟》

结果表明,与仅使用人口统计信息或人设描述相比,访谈记录能大幅提升复现准确率,但这一提升在经济博弈环节不那么明显。这是合理的,因为访谈问题聚焦的是人生经历和价值观,而非具体的类博弈行为。

总体而言,这项研究最核心的发现是:用人类的访谈记录为LLM构建丰富的记忆库,能够显著提高其预测人类反应的准确性。

这对游戏消费者研究有什么用?设想一下:对玩家进行游戏方式、喜好和消费习惯方面的访谈,你就能建立一个”智能体玩家”库,用来快速验证游戏设计决策、营销思路和品牌方向。

当然,这需要建立一套商业模式来确保数据提供者获得合理、合乎伦理的补偿,但前景值得期待。这套方法会取代真人焦点小组和消费者调研吗?当然不会,但它可以在早期就给团队发出预警信号:提示方向可能走偏了。

二、LLM复现人类购买意向

这篇论文探讨了LLM能否通过预测购买意向来充当”合成消费者”。过去的做法是让LLM在1到5的李克特量表上对产品打分(即用五个选项衡量对某一陈述的同意程度,例如从”非常不同意”到”非常同意”),但这往往导致LLM给出安全的中间分数——3分,无法反映真实人群中出现的1分和5分。

为了解决这个问题,研究者开发了一种叫做”语义相似度评分”(SSR)的方法。他们不再要求LLM输出数字,而是给LLM一个带有人口统计特征的消费者人设和一个产品概念,然后让它用自然语言表达购买意向。

然而,把自然语言回答映射到1到5的李克特量表并不容易。比如这样一句话——”我大概会买。我喜欢它操作简单,可以随身携带,价格也还算合适”——很难清晰区分它究竟对应4分还是5分的购买意向。

为此,研究者采用了三步流程:

1.制作参考语句,分别对应李克特量表上的1到5分。例如,1分对应”我不太可能购买”,5分对应”我非常有可能购买”。

2.用AI模型将文字映射到多维语义空间,语义相似的文本在空间中距离更近。

图片来源:Amazon

3.计算AI消费者的回答与五条参考语句的距离。回答越接近哪条参考语句,就越倾向于对应那个评分。

研究者根据年龄、性别、收入、族裔等属性生成了合成消费者,再将AI的回答与来自57项真实消费者调研的购买意向数据进行比对。

研究人员生成了具有年龄、性别、收入和种族等属性的合成消费者。然后,他们将AI的回应与57份真实消费者购买意向调查的数据进行了比较。

结果相当可观。SSR在概念排名上达到了理论最大准确率的90%以上。换言之,AI面板与真实人类数据的相关性,几乎与随机抽取的两组人类样本之间的相关性一样高。同时,SSR解决了LLM长期存在的”分布集中”问题(即LLM总是倾向于选3),其回答分布与真实人类的回答分布高度吻合。

这套方法还有一个额外的好处。由于合成消费者生成的是自然语言,因此提供了详细的理由说明。相比之下,真实人类往往只留下”挺好的”这类简短评论,而合成人设则会具体指出对价格或品牌信任度的顾虑。

图表术语说明:

DLR(直接李克特评分):直接提示AI对购买意向打1-5分。

FLR(后续李克特评分):先提示AI给出文字回答,再由另一个AI(被要求扮演李克特分析专家)将回答映射为数字。

SSR(语义相似度评分):本论文所用方法。

一项关键发现是:当结果按年龄和收入分组时,真实数据与合成数据的相似度较高,但按性别和地域分组时则不那么一致。

总体而言,这套方法前景很好。如果能用来测试应用商店截图、应用图标、用户获取素材等内容,会帮团队省下大笔费用,也让更多的实验成为可能。对小团队来说,这降低了实验门槛,将实验成本从数百上千美元压缩到个位数或两位数(基于我们自己的测试估算)。

三、针对游戏的研究复现

虽然无法完全按学术标准复现这些研究,但已有几种可用的资源:

1.《人类模拟》论文的作者建立了一个智能体库(Agent Bank),通过仅限API的方式开放智能体行为访问,以保护智能体所依据的真实人物免遭潜在恶意使用。

2.SSR论文的作者在GitHub上以MIT协议开源了SSR方法的Python实现。

3.LILA Games的Joseph Kim专门为游戏开发了SSR论文的网页工具版本。

本文选用第三种资源,因为它是一个已经实现SSR论文的完整功能网站。但我们怎么知道结果是否真的准确?

验证方法如下:

1.通过与Sensor Tower数据对比,测试其预测下载量表现的能力。

2.将合成回答与真实人类反馈进行比较。

第一项测试中,我们从应用商店下载量的第95、50、10百分位中各抽取两款三消游戏(共六款),以确保性能分布均匀,同时避免选到LLM训练数据中可能过度收录的”知名”游戏。

随后取每款游戏在应用商店的前三张截图,如下所示。

然后使用该网页工具,基于平台提供的玩家人设生成结果:

Sarah(休闲解谜玩家)

Alex(元游戏优化玩家)

Maria(故事完成型玩家)

Mike(午休时间玩家)

Linda(社交互动玩家)

测试结果如下:

下表对比了真实排名与合成排名,以及两者之间的名次差异。

结果方向基本正确:两款游戏排名完全吻合,两款互换了位置,剩余两款偏差在两名以内。实际上,如果在真实的A/B测试中选取合成排名前三的游戏,完全可以覆盖到真实表现最好的那些游戏。

第二项测试中,LILA Games慷慨分享了一项近期实验的结果。该团队想了解哪款应用图标更能促进玩家下载。实验涉及22个应用商店图标,针对15个自定义人设进行了调研。

与此同时,他们也通过Google Play的A/B测试对这些图标进行了实测,结果发现A/B测试的最终胜出图标与合成测试中排名第一的图标完全一致。

结论

从我们的测试来看,LLM在为游戏概念和素材提供早期信号方面展现出相当大的潜力。不过这个领域还很新,更好的方法还在不断涌现,我们自己也已经摸索出一些能优化回答质量的技巧:

人设的写法直接影响反馈质量,细微的措辞差异可能带来截然不同的结果。

选择哪些人设来测试概念,同样会影响最终结果——现实中的用户研究也是如此。

不同模型(比如Gemini和ChatGPT)会给出不同的结果,最好先针对某一模型做校准,然后固定使用它。

LLM能不能加入游戏研究的工具箱?可以,但有前提。它们更适合在早期提供方向性参考,而不是最终验证。准确性也取决于具体方法——比如有研究表明,”解盲”AI(即向其说明实验设计,而不仅仅让它扮演消费者)能提高预测效果。

类似的优化还有很多,这确实是一个充满活力、持续演进的领域。

如若转载,请注明出处:http://www.gamelook.com.cn/2026/04/591775/

关注微信