随笔分类 -  Data Analysis

摘要:Sample ─数据取样Explore ─数据特征探索、分析和予处理Modify ─问题明确化、数据调整和技术选择Model ─模型的研发、知识的发现Assess ─模型和知识的综合解释和评价Sample──数据取样 当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其 阅读全文
posted @ 2012-09-16 21:50 dekevin 阅读(1602) 评论(0) 推荐(0)
摘要:Clementine 是一个很有用的工具,在网游日常数据的处理中,其应用程度不低于Excel和SPSS,尽管Clementine是一个数据挖掘工具,但是在数据处理等方 面的功能很强大,在几十万到几百万甚至几千万数据处理上,都能够应付,而Excel仅仅处理在一百万左右的数据。使用Clementine有一段时间了, 就从基本的开始说起吧,先说说源节点是什么?每一个数据处理工具,都需要支持很多种数据格式,由于我们数据存储形式,或者存储软件的因素造成了我们有时候数据的格式会有很多种,为此作为一个好的数据分析软件,首要的就是要支持很多的数据格式,这样避免的大数据转换格式耗费的时间和成本。在Clement 阅读全文
posted @ 2012-09-16 17:23 dekevin 阅读(1273) 评论(0) 推荐(0)
摘要:昨天分享了以前学习的聚类分析算法K-Means的部分知识,其实这个主要是了解一下这 个算法的原理和适用条件就行了,作为应用而不是作为深入研究,能够很好的将业务和算法模型紧密结合的又有几人呢?所以一些基本知识还是很必要的,这里就是 简单把看过的一些知识点列举一下,梳理一下,快速了解和使用。今天把TwoSteps的知识也梳理一下,顺便做个小的演示,使用SPSS 19,后续在使用SPSS Modeler或者叫做Clementine再演示一次使用方法。首先上图。TwoSteps支持数值型和分类型数据,这对于我们而言在使用时就方便很多,此外游戏数据一般来说都很大,TwoStep在这方面来说还是很具有 优 阅读全文
posted @ 2012-09-16 17:05 dekevin 阅读(1020) 评论(0) 推荐(0)
摘要:这几天有点忙,所以没有很多时间把写的东西上传上来,这个拿出来是应一些做市场分析的童鞋的要求,我还记得这是我刚去金山工作时整理的,出处我忘记了,如果有谁知道,别忘记提醒我,这个算是扫盲吧,这几天会陆续上传一些新东西。1.CPC(CostPerClick;CostPerThousandClick-Through)每点击成本 以每点击一次计费。这样的方法加上点击率限制可以加强作弊的难度,而且是宣传网站站点的最优方式。但是,此类方法就有不少经营广告的网站觉得不公平,比如,虽然浏览者没有点击,但是他已经看到了广告,对于这些看到广告却没有点击的流量来说,网站成了白忙活。2.CPM(CostPerMill. 阅读全文
posted @ 2012-09-16 12:56 dekevin 阅读(1518) 评论(0) 推荐(0)
摘要:聚类分析是一类广泛被应用的分析方法,其算法众多,目前像SAS、Splus、 SPSS、SPSSModeler等分析工具均以支持聚类分析,但是如何使用,尤其在网游数据分析方面,作用还是很大的,尤其是我们对于某些客群的分析 时,排除人为的分组的干扰,客观和全面的展现客群的特征是一件很重要的事。网游玩家的消费特征、游戏行为特征(副本、任务、交互)、不同生命周期的玩家特征(新登玩家、留存玩家、流失玩家、回流玩家)等等,应用很广泛,然 而我们发现有时候我们的划分是带有主观色彩的。比如明确分组变量、确定分组标准等等。这些特征的提取和指定往往需要很多的行业经验和大量尝试,而我们只希 望分组时兼顾更多的因素和 阅读全文
posted @ 2012-09-16 12:52 dekevin 阅读(441) 评论(0) 推荐(0)
摘要:上次简单的说了一下SPSS下使用两步聚类分析的大致过程,今天简单说说在Clementine下怎么进行聚类分析,方法同样是两步聚类。之前说过聚类分析是无指导的,揭示的输入字段集的模式,不是一种预测。在我们 输入的字段上进行聚类分析找出组合最佳,能够反映共同属性的模式。两步聚类有两步,第一步是扩展,处理成若干子聚类,第二步利用分层聚类方法进行合并,形 成大的聚类,实际上是剪枝合并的过程,此步不再进行数据处理。分层聚类不需要确定聚类数,这点在两步聚类分析中得以避免,因为分层聚类经常因为处理大数据 量而失败,但是第一步的数据预处理得以避免了这个问题的出现。两步聚类分析的数据要求1) 角色设置必须为输入 阅读全文
posted @ 2012-09-16 12:17 dekevin 阅读(1920) 评论(0) 推荐(0)
摘要:CRISP-DM过程示意图 CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data mining and knowledge discovery中 )CRISP-DM过程描述CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将 阅读全文
posted @ 2012-08-06 08:44 dekevin 阅读(750) 评论(0) 推荐(0)
摘要:国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点 阅读全文
posted @ 2012-07-28 09:48 dekevin 阅读(355) 评论(0) 推荐(0)
摘要:ementine数据挖掘方法概述http://video.sina.com.cn/v/b/12312175-1240959563.html数据挖掘学习交流论坛http://www.businessanalysis.cn/数据挖掘研究院http://www.chinakdd.com/中国统计网www.itongji.cn数据挖掘论坛http://www.dmresearch.net/bbs/index.php人大经济论坛www.pinggu.org数据仓库之路www.dwway.com数据分析论坛http://www.spsschina.com/index.php郑来轶博客http://blog 阅读全文
posted @ 2012-07-28 09:27 dekevin 阅读(423) 评论(0) 推荐(0)
摘要:今天一群友在圈子里面贴了一个树状图,问怎么看,怎么划分,分几类?简单讲一下:有下面这样的一个树状图现在我们开始切了从右往左看,开始出现了2条横线,在此竖着切一刀,每一条线的左侧为1类这样我们把样本划分为2类第一类:中国第二类:其他国家或者地区继续往左走,在出现第三条横线的时候,竖着切一刀这样我们就把样本划分为3类第一类:中国第二类:日本和菲律宾第三类:其他同理,在继续往左走,竖着切下面我们将样本分为5类第一类:中国第二类:日本第三类:菲律宾第四类:中国香港和中国台湾第五类:其他你可以一直往左分,一直到1个样本一个群,看你自己的需求,分多少类,你自己做主。 阅读全文
posted @ 2012-07-28 09:26 dekevin 阅读(7421) 评论(0) 推荐(0)
摘要:K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如上面的星星,聚类后结果是一个个星团,星团里面的点相互距离比较近,星团间的星星距离就比较远了。 在. 阅读全文
posted @ 2012-06-21 15:09 dekevin 阅读(1150) 评论(0) 推荐(0)
摘要:k-means算法是machine learning领域内比较常用的算法之一。 首先,我们先来讲下该算法的流程(摘自百度百科): 首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 以上就是k-means的算法流程了,算法的流程其实还是比较简单的,今天我着重 阅读全文
posted @ 2012-06-21 15:08 dekevin 阅读(3715) 评论(0) 推荐(0)
摘要:一 、前提条件:1.变量之间不存在多重共线性;2.变量服从正态分布;二、原理:第一步,预聚类、准聚类过程:构建聚类特征树(CFT),分成很多子类。开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点。第二步,正式聚类:将以第一步完成的预聚类作为输入,对之使用分层聚类的方法进行再聚类(对数似然函数)。每一个阶段,利用施瓦兹贝叶斯信息准则(BIC)评价现有分类是否适合现有数据,并在最后给出符合准则的分类方案。三、优点:1.海量数据处理 阅读全文
posted @ 2012-06-21 15:02 dekevin 阅读(8070) 评论(0) 推荐(1)
摘要:决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。优点: 1) 可以生成可以理解的规则; 2) 计算量相对来说不是很大; 3) 可以处理连续和种类字段; 4) 决策树可以清晰的显示哪些字段比较重要。缺点: 1) 对连续性的字段比较难预测; 2) 对有时间顺序的数据,需要很多预处理的工作; 3) 当类别太多时,错误可能就会增加的比较快; 4) 一般的算法分类的时候,只是根据一个字段来分类。(racoon)一、C 5.0算法 执行效率和内存使用改进、... 阅读全文
posted @ 2012-06-21 15:02 dekevin 阅读(7921) 评论(0) 推荐(0)
摘要:TwoStep Cluster属于近年来才发展起来的智能聚类方法的一种,用于解决海量数据,复杂类别结构时的聚类分析问题。与传统的层次聚类和快速聚类法相比,两步聚类法有鲜明的特点。首先,用于聚类的变量可以使连续变量,也可以是离散变量,不必像其他算法那样,在进行聚类之前对离散变量进行连续化处理;其次,两步聚类法占用的内存资源少,对于大数据量,运算速度较快。最后,它是真正的在利用统计量作为距离指标进行聚类,同时又可以根据一定的统计标准自动地建议甚至于确定最佳的类别数。顾名思义,两步聚类是通过两个步骤来完成聚类工作。一、预聚类这一步骤通过构建和修改聚类特征树(Cluster Feature Tree) 阅读全文
posted @ 2012-06-21 14:58 dekevin 阅读(1696) 评论(0) 推荐(0)
摘要:SPSS Clenmentines提供众多的预测模型,这使得它们可以应用在多种商业领域中:如超市商品如何摆放可以提高销量;分析商场营销的打折方案,以制定新的更为有效的方案;保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。超市典型案例如何摆放超市的商品引导消费者购物从而提高销量,这对大型连锁超市来说是一个现实的营销问题。关联规则模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术,在海量数据中依据该模型的独特算法发现数据内在的规律性联系,进而提供具有洞察力的分析解决方案。通过一则超市销售商品的案例,利用“关联规则模型”,来分析商品交易流水数据,以其 阅读全文
posted @ 2012-04-27 16:07 dekevin 阅读(1387) 评论(0) 推荐(0)
摘要:了解SPSS Clementine的基本应用后,再对比微软的SSAS,各自的优缺点就非常明显了。微软的SSAS是Service Oriented的数据挖掘工具,微软联合SAS、Hyperion等公司定义了用于数据挖掘的web服务标准——XMLA,微软还提供OLE DB for DM接口和MDX。所以SSAS的优势是管理、部署、开发、应用耦合方便。但SQL Server 2005使用Visual Studio 2005作为客户端开发工具,Visual Studio的SSAS项目只能作为模型设计和部署工具而已,根本不能独立实现完整的Crisp-DM流程。尽管MS Excel也可以作为SSAS的客户 阅读全文
posted @ 2012-04-27 15:52 dekevin 阅读(1401) 评论(0) 推荐(0)
摘要:下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail详见:http://technet.microsoft.com/zh-cn/library/ms124623.aspx#DataMining或者我之前的随笔:http://www.cnblogs.com/esestt/archive/2007/06/06/773705.html1 阅读全文
posted @ 2012-04-27 15:03 dekevin 阅读(548) 评论(0) 推荐(0)