盘点大数据在游戏行业中的应用
本文来自网易云社区。
伴随应用商店和社交网络的兴起,游戏市场规模空前扩大,大数据和人工智能对于游戏运营特别是延长产品寿命的积极作用越发明显。但什么样的数据有价值?如何更有效的利用数据的价值?以及人工智能具体可以将游戏行业颠覆到何种程度?都逐渐成为游戏行业共同关注的问题。那么,游戏企业可以利用大数据为自己带来些什么?大数据为游戏行业带来了哪些变革?
基于玩家所产生的海量数据,我们怎样去获取玩家的具体画像、他们的特点以及预测他们未来的一些行为以服务我们的运营、发行以及研发过程中的一些系统改造?
我们围绕画像展开。
举个例子,如果一个人玩CS,他是一个狙击手,狙击手最想要什么?冲锋枪。那么,如果我们没事送他点别的,他可能觉得这个游戏对他不太友好,这种赠送就没有为游戏带来什么价值。如果我们能利用数据对玩家进行分类,比如分为高活跃用户、中活跃用户和低活跃用户,然后分发一些活动,那就可能引发他们的付费欲望。但是这个分层做得并不彻底,因为一个类别中,他们的行为模式会很不一样,我们能不能通过研究玩家的具体行为,然后将行为模式相似的用户聚集起来?比如一款动漫游戏,我们将它分为三个维度,游戏、社交、元素,游戏是指我被这款游戏的系统吸引了,社交是指身边有人在玩所以来玩和留下,元素是指被游戏中的哪个动漫元素吸引而加入。
可能那些关注元素本身而忽略另外两项的用户是迷弟迷妹类型的,关注游戏本身的用户可能是聚焦游戏类型的,而有一些交际型的用户,那它们可能更注重各种游戏里有没有他的好朋友。
对于关注元素的这一类,我们是不是应该抓内容、抓剧情、世界观?不再是单维度描述玩家,是多维度。
提到多维度就不得不提及一个概念——聚类。
聚类比简单的分类更多维。聚类是对玩家未知的分类,比常规的维度要多,会对活跃度、消费、玩法、参与、社交等等进行评估、打分。聚类相当于将N个散乱的点通过机器学习的算法聚为一类,这一类的点之间会是最相似的。
通过多维度的分析,通过聚类,从一个未知的角度去分析,我们可以发现一些比较难发现的用户特点,我们可以从用户那里得到更多可以为我们借鉴的东西。
举个例子,定位潜在的流失玩家和潜在的付费玩家,付费玩家和流失玩家在游戏中都会有自己的一定的行为模式,我们可以通过分析这些行为模式从而去构建模型,然后将这个模型应用到我们那些未流失、未付费玩家身上,看一下他们这些玩家的行为模式、行为轨迹和模型中的这些玩家行为轨迹、行为模式有什么相似之处,如果相似度非常高,那我们可以认为这个玩家将来也有可能会流失,但是目前还没有流失,这个时候就给我们留下一个时间窗口,我们可以在流失之前去定位这个用户,去干预和挽留,而不是在它流失之后通过发短信、发邮件去挽回,这会为我们减少成本。
当然还有从系统分析的角度,比如因为可以通过分析很多数据,例如玩家升级、观察驻留率,包括人家喜欢哪些道具,喜欢你的哪些商品等等,从而帮助我们去改变游戏里的一些不平衡的地方或者被玩家诟病的地方。
游戏行业将会产生非常多的数据。游戏行业对大数据的需求是最迫切的。拿现阶段来说,一款游戏从研发到运营,所有的成本回收都要靠运营。运营怎么做?这就要依托数据做指导。在游戏行业运营指标是非常多的,有200多个,所以我们非常重视数据行业。游戏行业是离钱最近的行业,是商业模式最清楚的行业。
如何应用大数据在游戏行业产生实实在在的价值?
游戏数据的构成分为四个层面:
第一层是论坛媒体的数据,这是游戏外的数据;
第二层是运营数据;
第三层是玩家的行为数据,玩家登陆了、聊天了、释放技能了等等,这些都会以日志的形式记录下来,这个数据量是非常恐怖的。
第四层是业务常规数据。
从大的方面来看,游戏的数据构成可以分为游戏外和游戏内,游戏内的远大于游戏外的。
游戏外数据
游戏外的数据我们能做哪些事?
1、情感识别:在采取玩家发言的时候,能判断玩家的态度是正面还是负面。
2、话题检测:自动对一段时间内新增的帖子进行检测,并且归纳出玩家讨论的热点话题。以便让运营者清楚的了解玩家的状态。
3、画像追踪:通过玩家的发言、资料,分析玩家拥有什么样的特征。
4、舆情监控:监控玩家,比如在出现bug、外挂的时候第一时间进行警告。
5、事件预警:很多突发事件都是从论坛里爆发的,如果我们没有及时发现,造成的损失是非常大的,或者说是致命的。
6、立项调研:比如游戏有哪些需要改进的地方,市场怎么样,这些都可以进行挖掘。
游戏内的数据
1、数值系统合理性评估:一款游戏在内测期间数值体系是不是有漏洞、生产线怎么样、精密系统有没有问题,这些都是可以进行合理性评估的。
2、玩家属性聚类:通过算法自动把玩家归类。
3、系统关联性分析:各个系统之间有什么关联,是非常常用的算法。
4、流失玩家预警:玩家有没有流失,未来某个时段有没有流失的风险,这些都可以计算出来。
5、游戏健康度评估:综合判断整个游戏各种指标是否健康,尤其是在平台运营数据较多的时候,可以给我们一个比较正确的全局指导。
6、潜在付费玩家定位:通过分析付费玩家的特点,去匹配潜在的付费玩家。
7、玩家行为预测:基于以上的特征把玩家分类,就可以预测玩家的行为。这可以帮助游戏在精细化时,有比较系统科学的决策依据。
其实可以做的远远不止这些,我们可以从玩家行为中判断他是不是外挂,是不是异常玩家。还可以通过玩家的行为数据和聊天记录,分析这个玩家是不是骗子,有没有做非法的事情。
对于产品来说,获取的数据越多越好,数据被放弃的理由主要有两种:一,游戏版本增加了生化对战模式,只实行一个月,一个月之后这个模式没有了,数据就会自动消失。二,数据量比较大,使用率比较低。从数据管理层面给产品进行反馈,说明这个数据意义不大,存储浪费很多空间。
数据的重要性,更多的是指游戏用户行为关键的数据,例如能影响到游戏运营的关键环节:活跃还是流失,或是付费等。这些数据关系到游戏内部的核心运营数据,就会要求游戏开发商必须上报,否则将无法提供标准化、模块化数据经营分析的基础服务。所以,每次跟游戏开发做对接的时候,会给一个标准化、必要的日志模板,剩下的日志可以选择性上报,根据游戏的运营节奏适当的增加或减少。
在电商或者微信领域,场景比较单一,更多的经历放在推荐场景上。而游戏里的场景多种多样,变化很快,在游戏内产生的行为规则也非常多,数据的维度或扩散的度量也很多。如何通过实时运算来保证在清晰的实时规则指标下快速清洗完,反馈到游戏里来做实时干预,是至关重要的。以《王者荣耀》为例,十一活动的时候,一天最高峰每秒钟日志量超过一百万,对于后端来说,既要把一百万承接下来,又要做实时计算,还要把实时计算反馈到游戏里,这个过程需要做很多优化,包括采集端、存储端、传输端,还有实时计算。
大数据架构在底层来说一定是一致的,也没有太大区别,游戏中也有所谓的精准推荐,也有实时规则。包括现在比较火的如何把分析做的更快,一定是结合到自己产品的实际场景当中来做相关的区分,举个例子,在电商平台购物,用户关注的物品,平台就会为用户做推荐,甚至跳过任何一个网站,都能看到之前浏览的产品。电商平台会把用户的行为推给第三方,在登录第三方平台的时候,如果用户确实在之前买过这个产品,就会受到弹出的方式的不停干预。互联网任何一个网页里面都可以实时的干预用户。实际上电商已经做好了模型,这个网站已经有这个模型做所谓的广告推荐的方式。
同样在微博产品中,一些内容咨询的推荐,例如今日头条,产品推荐、内容推荐是比较核心的,基于用户和用户看到的文章不停地做模型训练,这样就可以不停地加实时规则向用户推荐。
对于游戏,实际上也是如此。游戏有很多渠道,不仅是游戏内,还有平台渠道:微信手Q,官网等,将这些渠道分层,例如官网,游戏用户在上面去点,就会把规则类嵌到平台或者营销渠道里,思路和方法都是一样的,只是说如何利用大数据架构把这种推荐放在合适的游戏和营销场景里来,帮助产品或平台做更多的精细化运营。如果数据做不到实时与产品和游戏相结合,提供给产品更多的大数据的增值精细化服务价值,那么最后大数据服务可能只是数据咨询服务了。
平台内游戏急速增长,游戏个数多;数据源异构化突出,数据量大;一游戏一世界,数据抽象模型困难。如何利用大数据技术帮助产品快速、有效的实现游戏数据精细化运营?这些都是摆在游戏大数据应用面前的问题。
大数据的架构大同小异,基本上都包含采集、传输、存储、计算、应用,还有相关数据挖掘。在游戏特定场景下有一些应用的服务痛点和想要突破的问题。在游戏大数据应用服务高频营销场景中,需要用户行为的实时规则。游戏内和游戏外我们所涉及到的相关技术包括:机器学习、数据挖掘、文本婉拒、自然语音处理和深度学习。其中深度学习尤为重要,是非常强大的武器。
游戏数据分析能让游戏开发商、渠道、分发平台都能实现精细化运营。
网易猛犸大数据平台作为一站式的应用开发和数据管理平台,通过大数据开发套件,将数据开发、任务运维、自助分析、数据管理、项目管理等工作通过工作流的方式有效的串联起来,提供敏捷易用的用户操作界面,降低了大数据分析的使用门槛,显著的提高了数据开发工程师和数据分析师的工作效率。猛犸大数据平台在电商、音乐、云课堂学习、企业工业制造等领域已广泛应用,基于持续的需求驱动,通过多行业的业务验证,同时丰富全面的组件,提供完善的平台能力,满足不同类型的业务需求。基于猛犸大数据平台成熟而稳定的大数据分析处理技术,对海量数据进行ETL分析,实现在营销过程中针对特定场景提供精准化销售行为。