雷火UX在GDC演讲:如何做用户喜欢的游戏内推荐策略?

北京时间7月20日,在游戏开发者大会(GDC2021)的免费游戏峰会(Free to Play Summit)中,来自网易雷火UX用户体验中心的游戏数据分析师伯约与数据产品经理福顺进行了一场有关在UNO中制定游戏内推荐策略的演讲。游戏开发者大会每年在旧金山举办,如今已有35届,是一场高质量的大型游戏开发者盛会。

伯约(左)与福顺(右)

伯约和福顺分别于2019年、2020年校招进入网易,期间参与了多款端手游项目的数据分析、数据产品工作,具有丰富的游戏数据分析经验。他所供职的网易雷火UX用户体验中心是全球知名的一流用户体验团队,业务包含用户研究,大数据开发,体验设计等领域。GDC 全球游戏开发者大会二十年来的非赞助类演讲中,雷火UX入围数占据中国游戏行业的40%以上,与多所高校建立了密切的合作关系。

以下为分享实录:

欢迎大家今天来聆听我们讲一些关于一起优诺中的推荐系统的应用。

我的名字叫福顺,目前就职于网易游戏雷火用户体验研究中心。现在是一名数据产品经理,我的日常工作是取设计一些用研工具或流程,尤其是数据相关的,用来帮助游戏开发者们更好地了解他们的用户。

我们今天的日程如下:

首先我们会简单介绍一下一起优诺这款游戏,也就是优诺牌的手机版。其次,我们会介绍我们的AB测流程,这也是我们开展我们的推荐策略的平台。接下来我们会介绍推荐策略的创造,如何让策略有效,以及如何让用户满意。最后我们会总结一些关键点。

在进入正题之前,我们还需要把一些术语过一遍以便理解。

留存率,指一段时间内游戏留住用户的占比。流失率是这个的反义。他们反映了玩家群体的稳固程度。LTV是用户生涯价值的简称,在我们的处理中类似ARPU。付费率和ARPPU帮助我们了解付费人数的占比和付费的人的平均付费水平。CTR广泛应用在很多行业,这一指标用来衡量人们在看到广告等类似内容的时候有多感兴趣。点击率和转化率都反映了内容投放的有效性。

一起优诺这款游戏是网易和美泰163合作开发和运营的,目前已经在180多个国家拥有了超过1亿用户。主要的游戏模式是设置不同的下注规模,玩家进行相应的金币下注,赢者通吃。除此以外,游戏还包含了冒险模式,自定义匹配和排位赛等模式。这款游戏保留了优诺牌的核心玩法,辅之以很多有趣的界面设计,这些设计曾经也登上过2020年GDC的讲台。

推荐系统在一起优诺中有着广泛的应用。在排位推荐中、弹窗消息中都有应用。不过,我们今天主要讨论商品礼包的推荐,也是推荐系统应用最广泛的推荐。

在讨论具体的推荐策略前。我们将强调一下推荐时,有一套成熟的AB测流程的重要性。

游戏迭代速度很快。每当新版本上线的时候,总是会伴随这很多系统、模式、奖励、活动的更新。所以当我们试图对某一方面的更新效果进行评估的时候,会有很多的干扰变量。你无法确定到底是那部分改变帮你赢得了用户的青睐。相关性无法在你需要快速准确决策时满足你的需求。但是通过AB测,你可以精准地控制变量,让你确信的推荐策略是否有效。

AB测是掌握因果的钥匙,但是如何设计一个AB测流程,尤其是对于一个已上线的游戏呢?我将从原则,流程等几个角度介绍我们如何在一起优诺中进行AB测。

在设计测试流程时,需要时刻把握一些原则。通常,AB测有三个基础原则。随机抽样,控制变量,和重复实验。除了这三个基础原则外,还有一些对于游戏比较特殊的原则。

游戏中的AB测需要实现最少的用户占用。游戏迭代速度很快,但是AB测实质上是一个试错的过程。你不能指望只凭一两次测试就找出理想的策略来。所以开发者们可能需要同时进行很多测试。同时,因为要遵循控制变量的原则,一个玩家不可以同时接收两种不同的策略。所以为了保证能在有限时间内尽量多测试,唯一的办法就是用最少的用户进行测试。

快速迭代也需要AB测能尽快得出结论。开发者们需要时间对结果进行分析,然后将分析转变成决策,并进行执行。所以AB测的结果越快越好。

依照这些原则,我们设计了我们的AB测流程。在抽样阶段,我们首先计算出我们测试所需的最小样本。我们一般通过双比例检验计算最小样本。具体来说,需要考虑游戏当前的运营指标情况,对策略提升的期望,统计功效和显著度。其中后两者一般是固定的。

抽样结束后,我们会对样本的随机性进行再次检查。我们会依据AB测的目的和需求,选择一些主要指标,检查样本间在这些指标分布上的差异。确保抽样是随机的。

接下来我们投放AB测。测试开始后,我们会很快做一个曝光检测。这个检测不是为了评估效果,只是确定所有策略都准确无误地触达了用户,以此避免一些线上事故。

之后我们会对KPI进行实时的效果监控。当我们一旦发现效果显著,对比明确的时候就会立即终止测试。

AB测的部分就到这里。我的同事伯约会继续讲述推荐策略的详细情况。

你们好,我是伯约,我目前是雷火UX的一名数据分析师。我自毕业后就加入网易,已经在多款网易游戏的测试或上线期间为产品组提供建议,帮助他们提升游戏的用户体验,比如留存、付费等等。在了解所有这些UNO的背景知识以及关于AB测的一些基础,我们下一步就是应用部分。接下来的部分,主要关于如何为游戏UNO设计推荐策略。

让我们先再了解一些有关AB测的内容。在进行AB测之前,你应该首先想想你选择的样本是否合适。在现实世界做随机对照实验是很困难的,但你可以尝试做的更贴近一些。不合适的样本内量或取样方法可能导致完全不全的结果,让接下来的分析出现错误。举一个大学统计课堂常说的例子。在1936年美国大选前,某家报刊预测兰登会得到57%的选票而罗斯福会得到43%。但事实却大不相同。罗斯福以62%的选票赢得了这次大选。为什么会差这么多呢?最终人们的猜测是,这家报刊没有为他们的研究选择一个合适的样本。他们使用电话来了解人们的投票意愿。但那时,电话价格不菲、并不普遍,因此调查基本上只能接触到相对较富有的人群。这并不能很好地代表当年美国的选民。所以你需要警惕样本,避免产生选择偏差。另外,如果你并不相信你的样本足够随机,那么可以在事后用倾向值匹配的方式,尽量做到对照组和实验组的样本属性平衡。

1936年美国大选预测

在一次AB测之后,通常你需要对结果做一些统计学检验,这会让你的结果更加可信。让我们用留存率做例子。统计检验可以笼统上分为参数检验和非参数检验。参数检验通常提供更好地统计效应,但他们往往需要满足两个前提条件:正态分布和方差齐性。我们这里使用非参数检验,卡方检验,来检验两组样本留存率是否有差别。这里有一些样例数据。比如有两个版本的游戏,他们的留存率看着有点不同。上司问你,我们应该选择哪个版本?两者间是否有明显留存差别?针对这些问题,我们就可以用卡方独立性检验来处理。它可以一定程度上告诉我们两个离散变量是否相关联。这里有个直接的数学算式。不过,在常用的统计语言R中,我们可以简单地用一行命令来完成检验。它可以告诉你结果是否统计上显著。但你最好在使用函数时小心重要参数的设定。事实上,我相信用Excel也是可以做的,这里我就不介绍了。

针对留存的卡方检验

为了让策略有效,首先,我们需要了解、分类玩家,并为不同玩家设定特定的KPI。举例来说,我们可以把UNO中的玩家分为3类。针对新手玩家,我们关注他们的留存率和一些相关的转化率,这是一些我们认为可以反映玩家对游戏感兴趣程度的指标。对普通玩家,我们更为关注他们的付费率和一些反映活跃程度的指标,例如在线时间和一段时间内的活跃天数等。针对高付费玩家,我们更关注他们的ARPPU、点击率、转化率,和其他与付费更为相关的指标。这些可以说是你了解玩家的前期步骤。你需要使用数据,做一些用户画像的相关分析。设定KPI是一种在整个过程中确定目标的方式,可以让你避免使用一些虚荣指标。什么事虚荣指标呢,比如说如果你只打算提升付费,那么你应该把关注点主要放在收益或LTV上,而不是点击率。

因此,通过离线游戏内数据分析,我们能够找到一些不同用户的行为模式。在这之后,我们大概了解到游戏中的用户形象。比如他们每天在游戏中呆多久,哪种游戏模式是它们最喜欢的。这些背景信息通常真的会帮我们设计合适的推荐方案。理解你的玩家会让很多事情做起来变得流畅。对新手玩家来说,其中一些人在理解如何正确游戏UNO前,往往会在一次或几次糟糕的游戏体验后离开游戏,甚至不再回来,比如金币破产或连败等。那么好的推荐策略能否尽可能避免他们得到不良体验、提升他们的留存率呢?当我们分析玩家付费激励时,我们发现一些玩家有大量的金币,但是却停留在低倍场、很少参与高倍场。他们很可能因为怕失去金币而不能了解高倍场、金币或护盾等道具会怎样提高他们的游戏体验。如果我们可以在合适的时间引导他们慢慢接触更为开心刺激的模式以及合适的游戏内道具,是否可以在丰富他们体验的同时提升游戏付费率呢?在分析高充值用户的消费情况时,我们发现不少用户在购买金币后也会购买护盾,两者间有一定的关联。很自然地会想到,如果我们售卖一个打折礼包,其中包括一定量的金币和护盾,是否能够在高充值玩家满意的情况下提升他们的游戏体验和游戏的ARPPU。通过识别和利用这些玩家特征,我们设计了一系列的游戏内消费推荐策略,用于提升早起留存、付费、游戏体验等等。

针对新手玩家,我们的主要目的是引起他们对游戏的兴趣、提升留存率,避免他们在游戏早期就有明显的负面体验。因此,在新手的首周或前两周,我们会通过推荐礼包提供给他们便宜的道具,让他们能够逐渐跟上游戏的节奏,积累经验,甚至交更多朋友,产生黏性。

这是一次针对新手玩家的实验。我们设定ABC三组。A组玩家,我们给予每个人同样的推荐礼包策略。B组玩家,我们采用个性化定制后的推荐策略。C组玩家,我们设定为对照组,没有特殊策略。让我们看下结果。为避免误读,图表的Y轴均是从0开始。以留存来说,我们可以看到使用个性化推荐策略的组表现最好,对照组是表现最差的。从转化率(代表看到的玩家中有多少比例购买了礼包,一定程度上说明玩家的兴趣)上看,我们可以看到也是个性化推荐组的表现会更好。

针对游戏新手的实验

(关于普通玩家和高付费玩家的实验我们在演讲中也有讨论,篇幅所限不在文中详谈,感兴趣的可以在GDC相关视频网站观看)

关于推荐策略的背景算法,有比如协同过滤、购物篮算法等。因为这不是机器学习或游戏中的数学论坛,所以我不会说的太深。如果你感兴趣,可以自行通过阅读文章研究或是一起交流。事实上,针对我们已经尝试分析过的游戏,我们发现一个好的算法很重要,但是对游戏更多的了解对设计一个成功的推荐方案也有很大的帮助。对于选择模型中的响应变量,有大概三种目标函数:正向的、辅助的和负向的。我们希望正向指标能够尽可能高,同时辅助指标尽可能高一些,但我们绝对不希望我们的策略引起负面指标的明显提高。但有时负面指标比较难进行量化,比如用户的反馈舆情,有时候会把事情变得复杂一些。

在数据分析过程中,我们发现之前这些位置的推荐礼包点击率并不尽如人意。并且糟糕的点击率会影响推荐策略能起到的效果。因此,针对UI设计上,我们为礼包图标增加了晃动效果,来提升玩家对这个位置的关注。另外,再点击礼包图标后,我们也增加了一些效果来为玩家展示买这些道具真的很划算、时间有限,也起到了一些作用。这些点子受到了一个对有趣人类行为研究的启发,我印象里在几年前也在GDC的免费游戏论坛上有分享。如果你感兴趣,可以看那个视频学习一下。分享者解释了一些重要的人类购买行为并展示了一些十分有趣的发现。

好的,说到这里,你们可能理解到AB测系统对于游戏运营者做出推荐策略的帮助是多么关键。然而,在做AB测的时候,千万不要忽视AB测的隐形成本。AB测的显性成本很明显,比如时间成本、员工成本等。但是隐形成本人们时常忽视。这不是指资源的浪费或错配,而是一种错误的想法,觉得AB测可以取代基础产品提升。应用AB测在一个有诸多问题的产品上,无异于带着枪伤去健身。如果你不解决产品的基础问题,那么AB测结果甚至可能加速问题的爆发,因为你过于相信AB测,并对真正的问题睁一只眼闭一只眼。

最后,是总结部分。在所有这些关于AB测、推荐策略、数据分析的分享后,不得不说,理解你的玩家是对于做决定非常关键的前提条件。要理解你的玩家,解决他们游戏内的需求,有需要数据分析和KPI设定。另外,你也需要处理好游戏内弹窗、促销、UI晃动效果等方式,这些方式有效果但不能用得太频繁。最后,不要忘记AB测的隐形成本。AB测很强大,但他只是游戏运营者用来做出微观提升的工具,并不是用于解决所有问题的良药。一些宏观问题,比如可能你的游戏真的没有那么吸引人、在玩家进行PVP时网络连接很差,这些基础问题是不能依赖AB测去解决的。

谢谢关注我们的分享,希望你们觉得有帮助。在此感谢所有为推荐策略做出贡献的伙伴。

关注微信