文章分类 -  数据挖掘与分析

摘要:转载:http://blog.sina.com.cn/s/blog_6d58024c0100yfyj.html 在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我们需要用到很多的分析工具,这里我们只介绍最常用和基础的分析方法:拆分。一、看数据分布 最简单的拆分方法就是不看平均值,看数据分布。因为凡是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人被抬高到人均几亿身家。如果有人根据这个“平均.. 阅读全文
posted @ 2012-12-21 13:34 subsir 阅读(307) 评论(0) 推荐(0) 编辑
摘要:近期做过一个用户性别分类推荐,通过服务器下发控制,随即50%概率抽取一部分用户进行男女性别分类推荐,另外50%概率用户继续保持原有推荐。由于时间季节的影响,对于新算法测试,最好采用A/B测试,原因是不受时间季节影响,运营数据在月头与月尾,节假日等各种特殊时间都会有不同的规律,保证在同一规律,同一用户基础上做算法测试,是简单直观的办法。A是新算法推荐样本,B是原有推荐样本,直接对A和B进行各阶段的用户流量,转化率等对比分析,进而得出那套推荐最优。以下是我从网上转载来的文章,对A/B测试的基本概念和实现方法的讲解转载:http://oldj.net/article/AB-Testing-basic 阅读全文
posted @ 2012-12-20 10:18 subsir 阅读(774) 评论(0) 推荐(0) 编辑
摘要:“沉默的大多数”一词,借用了王小波的一篇知名杂文。不过俺今天要聊的内容和王小波无关、也和政治无关。今天的内容,是探讨某些思维的误区。这些误区的根源,都在于忽视了沉默的证据。 ★误区1:把随机事件当作确定事件 在本届世界杯期间,各种“预言帝”纷纷出笼。从8条腿的章鱼到2条腿的人,都敢于指点未来。关键是这些“预言帝”还很有市场,连不少IT行业的开发人员,都被它们蒙住了。下面俺举其中的2个事例。 ◇百度贴吧的未来客 在世界杯刚开打的6月13日,一个网名叫“X来自未来”的网友在百度的2012吧发了个帖子(在"这里")。它声称自己来自未来,并给出了世界杯决赛的预言——荷兰对西班牙。等 阅读全文
posted @ 2012-12-17 17:27 subsir 阅读(218) 评论(0) 推荐(0) 编辑
摘要:作者: Ted Spence当你的游戏吸引到大量玩家后,你可以开始得到丰厚的回报了。现在,你的难题是怎么让这种成功延续下去。你必须想出接触到用户的方法,计算出那类玩家可以从推广奖励中获益。所以,现在是时候设计一个分析数据的回归模型了。regression-analysis(from shmula.com)简介回归分析我不想拐弯抹角了:回归分析的知识点很多。你需要了解的是,它是一种数学方法,是由某些史上最聪明的数学家发明的,包括高斯,他用这个方法预测行星的位置——所以这不是一个简单的领域啊。但在本文中,我只谈一些基本的用法。首先,大部分公司都很容易就得出某些比率,比如:“23%访问我们网站的人体 阅读全文
posted @ 2012-12-11 18:43 subsir 阅读(2081) 评论(0) 推荐(0) 编辑
摘要:什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。聚类分析的基本过程是怎样的?选择聚类变量聚类分析找出各类用户的重要特征聚类解释&命名|| 选择聚类变量在设计问卷的时候,我们会根据一定的假设,尽可能选取对产品使用行为有影响的变量,这些变量一般包含与产品密切相关的用户态度、观点、行为。但是,聚类分析过程对用 阅读全文
posted @ 2012-12-06 01:05 subsir 阅读(367) 评论(0) 推荐(0) 编辑
摘要:转载:http://blog.sina.com.cn/s/blog_49f78a4b0102e0p3.html 阅读全文
posted @ 2012-12-05 12:35 subsir 阅读(734) 评论(0) 推荐(0) 编辑
摘要:http://blog.sina.com.cn/s/blog_61c463090100pbdh.html导入到hdfsbin/hadoop fs -put ./KDDTrain+.arff /user/root/bin/hadoop fs -put ./KDDTest+.arff /user/root/生成格式数据bin/hadoop jar mahout-0.4.jar org.apache.mahout.df.tools.Describe -p "/user/root/KDDTrain+.arff" -f /user/root/KDDTrain+.info -d N 3 阅读全文
posted @ 2012-12-03 19:36 subsir 阅读(508) 评论(0) 推荐(0) 编辑
摘要:欧几里德相似度(Euclidean Distance)最初用于计算欧几里德空间中两个点的距离,以两个用户x和y为例子,看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值,yi表示用户y对itemi的喜好值,他们之前的欧几里德距离是对应的欧几里德相似度,一般采用以下公式进行转换:距离越小,相似度越大在taste里,计算user之间和item之前欧几里德相似度的类是EuclideanDistanceSimilarity。皮尔逊相似度(Pearson Correlation Coefficient)皮尔逊相关系数一般用于计算两个定距变量间线性相关的紧密程度,它的取值在[-1,+1] 阅读全文
posted @ 2012-12-02 13:42 subsir 阅读(1007) 评论(0) 推荐(0) 编辑
摘要:Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restrict 阅读全文
posted @ 2012-11-30 11:04 subsir 阅读(209) 评论(0) 推荐(0) 编辑
摘要:参考自:《SPSS12高级教程》,张文彤《Clementine数据挖掘方法及应用》,薛薇采用聚类分析的数据挖掘技术进行电信市场客户分群电子商城的用户分析运用——客户细分(CustomerSegmentation)的相关问题列表!站内文章推荐:用SPSS因子分析结果进行聚类分析SPSS聚类分析——一个案例演示聚类分析全过程资源推荐阅读:移动客户细分模型项目报告(一份84页的PPT资源)本文案例数据源下载:数据小兵新浪微盘原创文章,转载或者分享,请注明来自数据小兵博客谢谢合作文章原创地址:http://hi.baidu.com/datasoldier/item/e0dc74e5f7f9d41658 阅读全文
posted @ 2012-11-26 10:39 subsir 阅读(4414) 评论(0) 推荐(0) 编辑
摘要:决策树概念决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。决策树的实现首先要有一些先验(已经知道结果的历史)数据做训练,通过分析训练数据得到每个属性对结果的影响的大小,这里我们通过一种叫做信息增益的理论去描述它,期间也涉及到熵的概念。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。从数据产生决策树的机器 阅读全文
posted @ 2012-11-22 17:11 subsir 阅读(9149) 评论(0) 推荐(1) 编辑
摘要:【编者注】大数据来了,受益于便宜的硬件存储、强大的计算机技术和云计算技术,企业手中获取了越来越多的数据。对大多数企业来说,数据分析不是可有可无,而是一个生存问题。但是面对大数据,我们有什么问题呢?本文作者赛仕软件研究开发(北京)有限公司总经理@刘政-SAS,在微博上分享的大数据的10个核心问题,中国统计网做个整理汇总,希望大家一起来交流讨论。大数据十大核心问题:1、大数据的分析模式大数据分析与传统分析的区别,特点是什么?2、分析速度分析速度是否能够跟上数据量和数据格式变化的速度,是否能达到实时分析?3、多种格式数据的分析技术声频、视频、图片、文本等等格式,如何混合分析?4、存储问题,存储和分析 阅读全文
posted @ 2012-11-22 17:08 subsir 阅读(1356) 评论(0) 推荐(0) 编辑
摘要:回归分析概念 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。通过这种方法可以确定,许多领域中各个因素(数据)之间的关系,从而可以通过其用来预测,分析数据。 方差齐... 阅读全文
posted @ 2012-11-22 16:48 subsir 阅读(10515) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2012-11-22 10:09 subsir 阅读(112) 评论(0) 推荐(0) 编辑
摘要:转载:http://kan.weibo.com/con/3514428268963004?_from=image一、什么是用户模型?Persona([pə:'səunə]):(Persona是用户模型的的简称)是虚构出的一个用户用来代表一个用户群。一个persona可以比任何一个真实的个体都更有代表性。一个代表典型用户的persona的资料有性别、年纪、收入、地域、情感、所有浏览过的URL、以及这些URL包含的内容、关键词等等。一个产品通常会设计3~6个用户模型代表所有的用户群体。Persona Web人物角色介绍用户模型(任人物角色)不是用户细分用户模型看起来比较像用户市场细分。用户 阅读全文
posted @ 2012-11-21 00:20 subsir 阅读(1494) 评论(0) 推荐(0) 编辑
摘要:转载:http://blog.digitalforest.cn/webanalytics-basic-catalogue?banner_id=wabasic维度与度量 网站分析基础概念之维度与度量基本要素 网站分析基础概念之网页与网页浏览数 网站分析基础概念之访问数 网站分析基础概念之事件访问特征 网站分析基础概念之进入页 网站分析基础概念之登陆页 网站分析基础概念之退出页 网站分析基础概念之访问持续时间 网站分析基础概念之引用与引用页 网站分析基础概念之会话引用与访问者引用 网站分析基础概念之广告点击数与广告点击率访问者特征 网站分析基础概念之初访者 网站分析基础概... 阅读全文
posted @ 2012-11-14 18:31 subsir 阅读(209) 评论(0) 推荐(0) 编辑
摘要:转载:http://kan.weibo.com/con/3486584322221287?_from=title使用RFM方法(最近购买日Recency, 各期购买频率Frequency, 各期平均单次购买金额Monetary)能够科学地预测老客户(有交易客户)今后的购买金额,再对销售毛利率、关系营销费用进行推算,就能按年、按季、按月分析出今后几期的客户价值。 在这里,客户价值指CRM毛利。CRM毛利 = 购买金额 - 产品成本 - 关系营销费用。 RFM方法是国际上最成熟、最为接受的客户价值分析方法,RFM实际上是一整套分析方法中的部分内容,但最具代表性,其它还包括客户购买行为随机模型、马可 阅读全文
posted @ 2012-11-13 20:59 subsir 阅读(839) 评论(0) 推荐(0) 编辑
摘要:转载:http://kan.weibo.com/con/3490308298224239?_from=image统计分析的八种方法一、 指标对比分析法 指标对比分析法,又称比较分析法——是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法。有比较才能鉴别。单独看一些指标,只能说明总体的某些数量特征,得不出什么结论性的认识; 指标分析对比分析方法可分为静态比较和动态比较分析。静态比较是同一时间条件下不同总体指标比较,如不同部门、不同地区、不同国家的比较,也叫横向比较;动态比较是同一总体条件不同时期指标数值的比较,也叫纵向比较。这两种方法既可单独使用,也可结合... 阅读全文
posted @ 2012-11-13 20:14 subsir 阅读(6749) 评论(0) 推荐(0) 编辑
摘要:探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类 阅读全文
posted @ 2012-10-12 15:33 subsir 阅读(154) 评论(0) 推荐(0) 编辑
摘要:转自:http://baike.baidu.com/view/693624.htm 马斯洛需求层次理论(Maslow's hierarchy of needs),亦称“基本需求层次理论”,是行为科学的理论之一,由美国心理学家亚伯拉罕·马斯洛于1943年在《人类激励理论》论文中所提出。该理论将需求分为五种,像阶梯一样从低到高,按层次逐级递升,分别为:生理上的需求,安全上的需求,情感和归属的需求,尊重的需求,自我实现的需求。另外两种需要:求知需要和审美需要。这两种需要未被列入到他的需求层次排列中,他认为这二者应居于尊重需求与自我实现需求之间。还讨论了需要层次理论的价值与应用等。详 阅读全文
posted @ 2012-09-29 17:41 subsir 阅读(3616) 评论(0) 推荐(0) 编辑