摘要: 前面介绍了关联规则1 不考虑用户购买的items之间的时序关系,但在一些情况下用户购买item是有严格的次序关系了,比如在某些休闲游戏中,用户购买了道具A才能购买道具B,且道具A和B只能购买一次,也就是说购买了道具A是购买道具B的充分条件,如果购买道具A的用户通常会购买道具A,在不考虑时序关系的时候 阅读全文
posted @ 2016-04-26 22:23 #小小林 阅读(3506) 评论(0) 推荐(0) 编辑
摘要: 本文介绍的是关联规则,分为两部分:第一部分是 不考虑用户购买的items之间严格的时序关系,每个用户有一个“购物篮”,查找其中的关联规则。第二部分 考虑items之间的严格的时序关系来分析用户道具购买路径以及关联规则挖掘。此文为第一部分的讲解。(本文所需的代码和数据集可以在这里下载。) 关联规则最常 阅读全文
posted @ 2016-04-26 22:05 #小小林 阅读(5364) 评论(0) 推荐(0) 编辑
摘要: 这是参照《机器学习实战》中第15章“大数据与MapReduce”的内容,因为作者写作时hadoop版本和现在的版本相差很大,所以在Hadoop上运行python写的MapReduce程序时出现了很多问题,因此希望能够分享一些过程中的经验,但愿大家能够避开同样的坑。文章内容分为以下几个部分:(本文的代 阅读全文
posted @ 2016-03-17 12:43 #小小林 阅读(11246) 评论(1) 推荐(0) 编辑
摘要: 本文先从几何意义上对奇异值分解SVD进行简单介绍,然后分析了特征值分解与奇异值分解的区别与联系,最后用python实现将SVD应用于推荐系统。 1.SVD详解 SVD(singular value decomposition),翻译成中文就是奇异值分解。SVD的用处有很多,比如:LSA(隐性语义分析 阅读全文
posted @ 2016-03-04 20:40 #小小林 阅读(53252) 评论(2) 推荐(3) 编辑
摘要: 主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量。 PCA的本质就是找一些投影方向,使得数据在这些投影方向上的方差最大,而且这些投影方向是相互正交的。这其实就是找新的正交基的过程 阅读全文
posted @ 2016-03-03 22:04 #小小林 阅读(41299) 评论(1) 推荐(2) 编辑
摘要: 声明:本博客中所采用的数据并非真实数据,会对真实数据加以变换,重在讨论游戏数据分析的思路。 这里是参考友盟的WAU模型[文章网址, 演示网址],利用某款游戏(以下称为游戏A)数据进行的分析。 作用: 1. 根据转移矩阵,可以对未来的WAU进行预测; 2. 查看”WAU用户构成”可以发现游戏的问题:新 阅读全文
posted @ 2016-02-03 17:54 #小小林 阅读(2411) 评论(0) 推荐(0) 编辑
摘要: 解决的问题:需要读取某个大文件夹下所有子文件夹中的excel文件,并汇总,汇总文件中需要包含的2部分的信息:1.该条数据来源于哪个子文件夹;2.该条数据来源于哪个excel文件。最终,按照子文件夹单独保存汇总文件,或者只保存成一个汇总文件。 场景描述:抓取了各个APP的使用数据,分散地保存在各个文件 阅读全文
posted @ 2016-01-29 20:07 #小小林 阅读(25029) 评论(0) 推荐(1) 编辑