摘要:
下图是一个网站分析的生命周期示意图,在确认好分析需求并收集好我们所需要的数据后(强调一下,明确分析需求很重要,这可以避免为了分析而分析),我们就可以充分使用网站分析工具的各种报告对数据展开分析。但网站分析工具中的数据量非常大,你可能一不小心就淹没在数据的海洋中,你得有一个明确的分析思路,知道要利用哪些报告或哪些报告视图才能帮助你快速找到问题的答案。以下是网站分析中涉及到的数据模块,这也提供了一个网站数据分析的大概思路。根据上边的数据模块所涉及的内容,在网站分析报告中我一般会对下边所列出的板块与指标进行具体分析(以下列出的是在网站数据分析中一些我个人觉得比较重要的板块与指标,不同的网站重要的数据 阅读全文
摘要:
基于物品的协同过滤ItemCF数据集字段:1. User_id: 用户ID2. Item_id: 物品ID3. preference:用户对该物品的评分算法的思想:1. 建立物品的同现矩阵A,即统计两两物品同时出现的次数数据格式:Item_id1:Item_id2 次数2. 建立用户对物品的评分矩阵B,即每一个用户对某一物品的评分数据格式:Item_id user_id:preference3. 推荐结果=物品的同现矩阵A * 用户对物品的评分矩阵B数据格式:user_id item_id,推荐分值4. 过滤用户已评分的物品项5.对推荐结果按推荐分值从高到低排序原始数据:1,101,5.01, 阅读全文
摘要:
http://yusun.iteye.com/blog/1671636 阅读全文
摘要:
引言何 为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆) 的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新 浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,以便深入了解用户共同特征,制定精准营销策 略,势必要用到聚类相关的算法(比如新浪大牛张俊林就利用聚类算法来挖掘新浪微博中的兴趣圈子[2]),而聚类算法都需要构造用户两两之间的关系,形成 n*n的矩阵 阅读全文