使用PolarDB for AI预测游戏用户付费与流失-云原生数据库 PolarDB-阿里云

本文将向您介绍PolarDB for AI在游戏领域用户行为预测的客户最佳实践。

通过用户行为分析帮助某SLG游戏提升出海效率

背景

某游戏公司客户特别重视广告买量和用户运营方面的数据建设和算法优化，百分点位的算法效果提升带来的业务收益便足以覆盖IT资源支出。由于该游戏海外的用户属性较少，该游戏公司利用我们的算法，在多个场景中都投入使用，包括用户是否付费预测、用户付费金额预测、用户流失预测、大R流失预测、大R金额下降预测等等。

解决方案

用户付费预测

任务：根据1天的用户行为预测未来7天内是否付费。
数据：某游戏共10万条数据。其中每个UID对应一条数据，付费与非付费的比例为1:90，为了保证有效性，我们对数据进行欠采样。

数据特征：

序列特征：序列中的元素是由每个事件ID映射而成，如果总事件类型有100个，那么序列就是0,1,2...,99。不考虑事件对应的其他参数。序列按事件发生的时间升序排列，考虑到有些用户的行为过长，为了防止内存或显存不足，截取最近的3000个行为。

序列的id	事件名称	事件描述
1	Register	用户注册
2	Charge	用户充值
3	Login	用户登录
4	Status	用户数据快照：包括用户等级、体力
5	Activity_Reward	活动奖励
6	Fight_Status	PVP/PVE战斗记录
7	Guild_Contribute	公会成就
8	Area_Fight	地图探索
9	Build	建造记录
10	Shop_Items	商城信息
11	Shop_Gold_Buy	商城付费金币购买
12	Shop_Score_Buy	商城点数兑换
13	Chat_Open	聊天打开
14	Produce	材料生产
15	Decompose	材料分解
16	Equipment_Buy	装备购买
17	Gift_Click	礼包点击
18	Pay_Enter	拉起支付
19	Pay_Success	支付成功
...

非序列特征：近期每日付费金额、近期每日行为数、近期每日与付款有关行为数（比如点击上层）、近期每日付费金额的数量、当前等级、VIP等级、省份等。

模型训练：
- max_epoch=20
- 其他参数根据实际数据调节
实验结果：
方法
准确率
召回率
Fscore
lightGBM
46%
47%
46.8%
BST
93.0%
63.7%
75.6%
说明
可以看到，BST模型的效果会比传统的机器学习模型要好得多。

用户流失预测
- 任务：我们采用“14测14”的策略，来做用户流失预测。也就是说观察用户14天的行为，来预测未来14天内是否会流失。
- 数据：某游戏共55万条数据。其中每一条样本数据即为一个用户14天的用户行为。标签是该用户接下来的14天内是否流失。训练数据中流失和非流失的比例为1:4。
- 数据特征：
  - 序列特征：用户每个事件的序列，按时间升序排列，考虑到有些用户的行为过长，为了防止内存或显存爆掉，截取最近的3000个行为。
  - 非序列特征：近期每日行为数、当前等级、vip等级等...
- 模型训练：
  - max_epoch=20
  - 其他参数根据实际数据调节
- 实验结果：（由于付费预测的传统机器学习的效果太差，为了节约成本，这个案例的后续模型没有详细与其他模型对比实验）。
  方法
  准确率
  召回率
  Fscore
  BST
  69.09%
  76.64%
  72.67%
大R用户流失预测
- 任务：我们针对月付费>=X万的用户（X为大R用户的门槛金额），采用“14测14”的策略，来做用户流失分析。也就是说观察用户14天的行为，来预测未来14天内是否会流失。
- 数据：某游戏共4万条数据。其中每一条样本数据即为一个用户14天的用户行为。标签是该用户接下来的14天内是否流失。训练数据中流失和非流失的比例为1:60。我们做了一些欠采样将训练数据中流失何非流失控制的比例在1:3左右，以保持样本的平衡性。
- 数据特征：
  - 序列特征：用户每个事件的序列，按时间升序排列，考虑到有些用户的行为过长，为了防止内存或显存爆掉，截取最近的3000个行为。
  - 非序列特征：近期每日行为数、当前等级、VIP等级等。
- 模型训练：
  - max_epoch=20。
  - 其他参数根据实际数据调整。
- 实验结果：
方法
准确率
召回率
Fscore
BST
69.09%
76.64%
72.67%

案例总结

客户通过使用用户行为分析的算法：

将付费预测模型得到的有较高概率付费的用户提供给广告系统，以进行广告投放。
将流失预测模型得到的有较高概率流失的用户提供给客服，客服通过对用户及时进行回访，收集客户意见。同时进行关怀挽留。

该方案已在生产系统中使用。

通过用户行为分析帮助某抽卡类游戏提升效率

背景

某游戏公司希望在其数据平台上增加AI能力，帮助运营更好地分析游戏，了解游戏玩家的行为习惯。为此，希望PolarDB for AI能从多个维度分析用户行为。同时能够与客户的数据仓库打通，方便建立工作流。

解决方案

首先开通HTAP节点，方便和客户的数据仓库（OSS存储介质）打通，能拉取数据到AI节点进行分析。之后从用户是否付费预测、用户流失预测这两个任务着手去处理。本章讲述“用户流失预测”的细节实现。

用户流失预测

任务：根据7/14/21天的用户行为预测未来7天内是否流失。也就是说观察用户7/14/21天的行为，来预测未来7天内是否会流失。
数据：某游戏共100万+条数据。每个uid对应一条数据，其中流失和非流失的比例为1:5左右。

数据特征：

序列特征：序列中的元素是由每个事件ID映射而成，如果总事件类型有100个，那么序列就是0,1,2...,99。不考虑事件对应的其他参数。序列按事件发生的时间升序排列，考虑到有些用户的行为过长，为了防止内存或显存爆掉，截取最近的3000个行为。下表是一些事件说明（已脱敏）。

序列的id	事件名称	事件描述
1	Register	用户注册
2	Charge	用户充值
3	Login	用户登录
4	Status	用户数据快照：包括用户等级、体力
5	Business	经营记录
6	HeroLevelup	英雄强化记录
7	BossInfo	战斗结束记录
8	Activity	活动信息
9	Explore	探索记录
10	Money	货币记录
11	Logout	登出记录
12	HeroSkill	英雄技能纪录
13	BattlePass	通行证状态
15	FightFinish	战斗结束结算
16	GuildIndividual	公会个人操作
17	BuildLevelup	建筑升级
...

非序列特征：总行为数、每种行为出现次数、每种道具出现次数等。

模型训练：
- max_epoch=20
- 其他参数根据实际数据调节
- 实验结果：
  任务
  子任务
  模型
  Precsion
  Recall
  Fscore
  流失预测
  7测7
  BST
  62.12%
  82.21%
  70.77%
  14测7
  83.93%
  82.97%
  83.45%
  21测7
  86.8%
  79.64%
  83.07%

案例总结

客户将PolarDB for AI作为基座AI平台，将数据平台和PolarDB打通，PolarDB for AI成为客户做数据运营的好帮手，帮助您持续分析游戏用户，评估其付费、流失、LTV等情况，为游戏运营提供数据支持。

方法	准确率	召回率	Fscore
lightGBM	46%	47%	46.8%
BST	93.0%	63.7%	75.6%

任务	子任务	模型	Precsion	Recall	Fscore
流失预测	7测7	BST	62.12%	82.21%	70.77%
	14测7		83.93%	82.97%	83.45%
	21测7		86.8%	79.64%	83.07%