游戏不再做歪！AI模拟千名玩家、准确率超85%，用研,测试,买量“省大钱”？

【GameLook专稿，禁止转载！】

GameLook报道/做一款游戏，最难的是什么？

某种意义上讲，不是技术，不是美术，甚至不是钱，而是决策。

据腾讯高级副总裁马晓轶此前接受Gamelook采访时表示，每个3A游戏都有1500个关键决策点，至少做对1200个才能成功。

问题是，这些决策凭什么做？大厂有用户调研团队，有A/B测试资源，有充足预算请真人玩家试玩反馈。而小团队要么抄市场验证过的爆款路线，走换皮捷径；要么靠制作人拍脑袋，赌运气。买量更夸张。为了测试哪个素材效果好，得真金白银往外砸，一个A/B测试跑下来，都能让预算捉襟见肘。

那么，这笔钱，能省吗？

海外已经有创业公司在尝试回答这个问题。比如日本的Alt.ai和Nulltitude.ai等消费者调研公司，开始用AI模拟消费者行为做测试。还有那家因为”斯坦福小镇”出圈的开发团队Simile，转身就拿了1亿美元融资，他们做的事，本质上就是在模拟人类，按照终端用途来看，它可以模拟游戏里的NPC，模拟聊天机器人，也可以模拟用户。

想象一下：你不再需要花钱请大量的真人来填问卷，而是换成算力，让AI替他们回答，这将节约多少用户调研资金、游戏研发提升多少决策效率？

当然，这种场景一个比较大的问题是：AI模拟人类，能准吗？答案是：比你想象的准得多。

图片来源：Nano Banana

近期，外媒Naavik撰文称，有多项学术研究专门验证这件事。结论出人意料——LLM（中大型语言模型）在预测人类行为这件事上，准确率可以达到85%以上。不过，研究者还做了个对比测试：让同一批人类两周后再做一遍同样的问卷，他们自己的准确率只有81%。

也就是说，在某些场景下，AI比你更了解”人类平均会怎么选”。这听起来有点反直觉，但逻辑其实不复杂。人类做问卷会受情绪、环境、当下状态影响，今天心情好选了”满意”，两周后可能就选了”一般”。AI没有这些干扰，它只是根据学到的人类行为模式给出最可能的答案。

以下是Gamelook编译naavik的完整内容：

关于生成式AI对游戏行业影响的争论，它究竟是一场革命、一场灾难，还是介于两者之间？这些争论大多集中在生产端：编程、美术、音乐和营销素材创作。

然而，大型语言模型（LLM）还有一个较少被关注的应用方向，那就是消费者研究。近期有多项研究尝试利用LLM中积累的海量数据来模拟人类行为，以期大幅降低市场调研成本。相关研究包括：

《大型语言模型用于市场研究：数据增强方法》

《用LLM模拟人类行为的挑战：因果推断视角》

《深度生成模型合成数据的去偏方法》

《1000人生成式智能体模拟》

《LLM通过语义相似度引导李克特量表评分复现人类购买意向》

研究结果喜忧参半。LLM确实能在相当程度上复现人类的回答，但也容易产生偏差，或给出过于”安全”的中庸答案。针对这一问题，研究者们已经开发出一些新方法来确保结果更接近真实的人类反应。虽然这些研究目前尚未得到广泛应用，但对于游戏团队来说，已经出现了一些可以付诸实践的具体用途。

本文将介绍其中两篇论文，分别说明各自的研究内容和结论，再谈谈如何把这些研究结果落地用起来。

本文涉及的两篇论文分别是：《1000人生成式智能体模拟》（2024）以及《LLM通过语义相似度引导李克特量表评分复现人类购买意向》（2025）。

一、1000人生成式智能体模拟

这篇论文的研究者对1052名真实人物的态度与行为进行了数字化”克隆”，目的是了解”一批多样化的个体对新公共卫生政策和信息的反应、对产品发布的态度，以及对重大冲击事件的回应”。

研究者采用了一种新颖的方法。他们没有用人口统计信息或人设描述来提示LLM，而是进行了时长约两小时的语音访谈，并将生成的访谈文字记录作为AI智能体的记忆素材。

访谈问题基于斯坦福大学的”美国人之声”项目，内容开放、范围宽泛，例如：”请讲讲你的人生故事——从童年、求学经历，到家庭与感情，以及你经历过的重要人生事件。”

研究假设是：这些丰富的人生经历数据能让智能体准确预测真实的行为反应。研究者还加入了一个名为”专家反思”的环节。他们利用访谈文字记录，指示LLM分别扮演心理学家、行为经济学家、政治学家和人口学家等领域专家，并生成相应的反思分析。智能体在回答问题时，会从记忆中检索最相关的专家意见作为参考。

研究者随后将这些智能体的表现与真实人类参与者在问卷调查、人格测试和经济博弈中的表现进行了比对。

结果如何？

问卷回答：归一化准确率85%

大五人格特征：归一化相关性80%

经济博弈：归一化相关性66%

“归一化”意味着结果是以人类基准为参照进行评分的。值得注意的是，人类自己在两周后重做同一份问卷时，准确率也只有81%。

图表：《1000人生成式模拟》

结果表明，与仅使用人口统计信息或人设描述相比，访谈记录能大幅提升复现准确率，但这一提升在经济博弈环节不那么明显。这是合理的，因为访谈问题聚焦的是人生经历和价值观，而非具体的类博弈行为。

总体而言，这项研究最核心的发现是：用人类的访谈记录为LLM构建丰富的记忆库，能够显著提高其预测人类反应的准确性。

这对游戏消费者研究有什么用？设想一下：对玩家进行游戏方式、喜好和消费习惯方面的访谈，你就能建立一个”智能体玩家”库，用来快速验证游戏设计决策、营销思路和品牌方向。

当然，这需要建立一套商业模式来确保数据提供者获得合理、合乎伦理的补偿，但前景值得期待。这套方法会取代真人焦点小组和消费者调研吗？当然不会，但它可以在早期就给团队发出预警信号：提示方向可能走偏了。

二、LLM复现人类购买意向

这篇论文探讨了LLM能否通过预测购买意向来充当”合成消费者”。过去的做法是让LLM在1到5的李克特量表上对产品打分（即用五个选项衡量对某一陈述的同意程度，例如从”非常不同意”到”非常同意”），但这往往导致LLM给出安全的中间分数——3分，无法反映真实人群中出现的1分和5分。

为了解决这个问题，研究者开发了一种叫做”语义相似度评分”（SSR）的方法。他们不再要求LLM输出数字，而是给LLM一个带有人口统计特征的消费者人设和一个产品概念，然后让它用自然语言表达购买意向。

然而，把自然语言回答映射到1到5的李克特量表并不容易。比如这样一句话——”我大概会买。我喜欢它操作简单，可以随身携带，价格也还算合适”——很难清晰区分它究竟对应4分还是5分的购买意向。

为此，研究者采用了三步流程：

1.制作参考语句，分别对应李克特量表上的1到5分。例如，1分对应”我不太可能购买”，5分对应”我非常有可能购买”。

2.用AI模型将文字映射到多维语义空间，语义相似的文本在空间中距离更近。

图片来源：Amazon

3.计算AI消费者的回答与五条参考语句的距离。回答越接近哪条参考语句，就越倾向于对应那个评分。

研究者根据年龄、性别、收入、族裔等属性生成了合成消费者，再将AI的回答与来自57项真实消费者调研的购买意向数据进行比对。

研究人员生成了具有年龄、性别、收入和种族等属性的合成消费者。然后，他们将AI的回应与57份真实消费者购买意向调查的数据进行了比较。

结果相当可观。SSR在概念排名上达到了理论最大准确率的90%以上。换言之，AI面板与真实人类数据的相关性，几乎与随机抽取的两组人类样本之间的相关性一样高。同时，SSR解决了LLM长期存在的”分布集中”问题（即LLM总是倾向于选3），其回答分布与真实人类的回答分布高度吻合。

这套方法还有一个额外的好处。由于合成消费者生成的是自然语言，因此提供了详细的理由说明。相比之下，真实人类往往只留下”挺好的”这类简短评论，而合成人设则会具体指出对价格或品牌信任度的顾虑。

图表术语说明：

DLR（直接李克特评分）：直接提示AI对购买意向打1-5分。

FLR（后续李克特评分）：先提示AI给出文字回答，再由另一个AI（被要求扮演李克特分析专家）将回答映射为数字。

SSR（语义相似度评分）：本论文所用方法。

一项关键发现是：当结果按年龄和收入分组时，真实数据与合成数据的相似度较高，但按性别和地域分组时则不那么一致。

总体而言，这套方法前景很好。如果能用来测试应用商店截图、应用图标、用户获取素材等内容，会帮团队省下大笔费用，也让更多的实验成为可能。对小团队来说，这降低了实验门槛，将实验成本从数百上千美元压缩到个位数或两位数（基于我们自己的测试估算）。

三、针对游戏的研究复现

虽然无法完全按学术标准复现这些研究，但已有几种可用的资源：

1.《人类模拟》论文的作者建立了一个智能体库（Agent Bank），通过仅限API的方式开放智能体行为访问，以保护智能体所依据的真实人物免遭潜在恶意使用。

2.SSR论文的作者在GitHub上以MIT协议开源了SSR方法的Python实现。

3.LILA Games的Joseph Kim专门为游戏开发了SSR论文的网页工具版本。

本文选用第三种资源，因为它是一个已经实现SSR论文的完整功能网站。但我们怎么知道结果是否真的准确？

验证方法如下：

1.通过与Sensor Tower数据对比，测试其预测下载量表现的能力。

2.将合成回答与真实人类反馈进行比较。

第一项测试中，我们从应用商店下载量的第95、50、10百分位中各抽取两款三消游戏（共六款），以确保性能分布均匀，同时避免选到LLM训练数据中可能过度收录的”知名”游戏。

随后取每款游戏在应用商店的前三张截图，如下所示。

然后使用该网页工具，基于平台提供的玩家人设生成结果：

Sarah（休闲解谜玩家）

Alex（元游戏优化玩家）

Maria（故事完成型玩家）

Mike（午休时间玩家）

Linda（社交互动玩家）

测试结果如下：

下表对比了真实排名与合成排名，以及两者之间的名次差异。

结果方向基本正确：两款游戏排名完全吻合，两款互换了位置，剩余两款偏差在两名以内。实际上，如果在真实的A/B测试中选取合成排名前三的游戏，完全可以覆盖到真实表现最好的那些游戏。

第二项测试中，LILA Games慷慨分享了一项近期实验的结果。该团队想了解哪款应用图标更能促进玩家下载。实验涉及22个应用商店图标，针对15个自定义人设进行了调研。

与此同时，他们也通过Google Play的A/B测试对这些图标进行了实测，结果发现A/B测试的最终胜出图标与合成测试中排名第一的图标完全一致。

结论

从我们的测试来看，LLM在为游戏概念和素材提供早期信号方面展现出相当大的潜力。不过这个领域还很新，更好的方法还在不断涌现，我们自己也已经摸索出一些能优化回答质量的技巧：

人设的写法直接影响反馈质量，细微的措辞差异可能带来截然不同的结果。

选择哪些人设来测试概念，同样会影响最终结果——现实中的用户研究也是如此。

不同模型（比如Gemini和ChatGPT）会给出不同的结果，最好先针对某一模型做校准，然后固定使用它。

LLM能不能加入游戏研究的工具箱？可以，但有前提。它们更适合在早期提供方向性参考，而不是最终验证。准确性也取决于具体方法——比如有研究表明，”解盲”AI（即向其说明实验设计，而不仅仅让它扮演消费者）能提高预测效果。

类似的优化还有很多，这确实是一个充满活力、持续演进的领域。

如若转载，请注明出处：http://www.gamelook.com.cn/2026/04/591775/

相关推荐