摘要: Sample ─数据取样Explore ─数据特征探索、分析和予处理Modify ─问题明确化、数据调整和技术选择Model ─模型的研发、知识的发现Assess ─模型和知识的综合解释和评价Sample──数据取样 当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其 阅读全文
posted @ 2012-09-16 21:50 dekevin 阅读(1551) 评论(0) 推荐(0) 编辑
摘要: 当报表、多维分析等传统的商业智能(BI)技术已经被大家熟知之后,转而代之的是更高级而易用的商业分析(Business Analytics,下称 BA)技术。 在国际数据公司(IDC)对2008-2012年的BI工具预测中,为BA软件给出了一个清晰的范 围,它包括两大部分:数据仓库平台和绩效管理工具及应用。数据仓库平台中包含数据仓库管理工具和ETL、数据质量工具;绩效管理工具及应用则包括了基于数 据仓库或统一数据平台之上的分析功能,例如财务绩效和战略管理、供应链分析、劳动力分析、客户关系(CRM)分析应用、服务营运分析、生产规划、商业智能 (BI)工具(查询、报表、多维分析、仪表盘)、高级分析( 阅读全文
posted @ 2012-09-16 21:47 dekevin 阅读(679) 评论(0) 推荐(0) 编辑
摘要: 近期很多人反映刚刚接手数据分析工作,不知道怎么来做一份数据日报,不知道取 哪些数据,关注哪些重点指标,事实上对于新手而言最好的办法就是去参考前辈和看看行业一些日报的形式,但是核心在于你的产品是页游,还是app,还是手 游,还是网站,还是开放平台,还是端游,或者是一款互联网应用,产品定位和属性决定了数据分析日报的形式和内容。今天要说的这些指标和内容,基本可以保证基本的日报数据需求,换句话这是要关注的一些方面,剩下的要根据你的产品来了,不全或者纰漏错误还请各位批评指正。在开始之前还要明确一点,仔细想清楚你的报告服务于谁,给谁看,怎么做怎么展现,都需要你自己来衡量,下面的一切都是一个基本的思路和例子 阅读全文
posted @ 2012-09-16 17:29 dekevin 阅读(582) 评论(0) 推荐(0) 编辑
摘要: Clementine 是一个很有用的工具,在网游日常数据的处理中,其应用程度不低于Excel和SPSS,尽管Clementine是一个数据挖掘工具,但是在数据处理等方 面的功能很强大,在几十万到几百万甚至几千万数据处理上,都能够应付,而Excel仅仅处理在一百万左右的数据。使用Clementine有一段时间了, 就从基本的开始说起吧,先说说源节点是什么?每一个数据处理工具,都需要支持很多种数据格式,由于我们数据存储形式,或者存储软件的因素造成了我们有时候数据的格式会有很多种,为此作为一个好的数据分析软件,首要的就是要支持很多的数据格式,这样避免的大数据转换格式耗费的时间和成本。在Clement 阅读全文
posted @ 2012-09-16 17:23 dekevin 阅读(1250) 评论(0) 推荐(0) 编辑
摘要: 昨天分享了以前学习的聚类分析算法K-Means的部分知识,其实这个主要是了解一下这 个算法的原理和适用条件就行了,作为应用而不是作为深入研究,能够很好的将业务和算法模型紧密结合的又有几人呢?所以一些基本知识还是很必要的,这里就是 简单把看过的一些知识点列举一下,梳理一下,快速了解和使用。今天把TwoSteps的知识也梳理一下,顺便做个小的演示,使用SPSS 19,后续在使用SPSS Modeler或者叫做Clementine再演示一次使用方法。首先上图。TwoSteps支持数值型和分类型数据,这对于我们而言在使用时就方便很多,此外游戏数据一般来说都很大,TwoStep在这方面来说还是很具有 优 阅读全文
posted @ 2012-09-16 17:05 dekevin 阅读(972) 评论(0) 推荐(0) 编辑
摘要: 我在放弃了阿里妈妈广告联盟后,在松松软件站、微博都启用了百度联盟广告,下面卢松松就通过自己这半年两个联盟使用感受,把百度联盟和Google AdSense进行比较。百 度联盟与Google AdSense在国内是中小网站使用最多的网站广告联盟,虽然谷歌关键字广告(AdWords)业务面对百度推广处于下风,但Google AdSense相比百度联盟来说占据绝对优势,对于联盟网站给予高额分成比例赢得了广大中小网站的青睐,AdSense的展示率非常高,但点击率非常低。1:收入比较这 是大家最关注的问题,百度联盟与Google AdSense哪个的收益最高呢?经过卢松松测试,同样的位置、同样的流量、同 阅读全文
posted @ 2012-09-16 13:12 dekevin 阅读(594) 评论(1) 推荐(0) 编辑
摘要: 这几天有点忙,所以没有很多时间把写的东西上传上来,这个拿出来是应一些做市场分析的童鞋的要求,我还记得这是我刚去金山工作时整理的,出处我忘记了,如果有谁知道,别忘记提醒我,这个算是扫盲吧,这几天会陆续上传一些新东西。1.CPC(CostPerClick;CostPerThousandClick-Through)每点击成本 以每点击一次计费。这样的方法加上点击率限制可以加强作弊的难度,而且是宣传网站站点的最优方式。但是,此类方法就有不少经营广告的网站觉得不公平,比如,虽然浏览者没有点击,但是他已经看到了广告,对于这些看到广告却没有点击的流量来说,网站成了白忙活。2.CPM(CostPerMill. 阅读全文
posted @ 2012-09-16 12:56 dekevin 阅读(1456) 评论(0) 推荐(0) 编辑
摘要: 聚类分析是一类广泛被应用的分析方法,其算法众多,目前像SAS、Splus、 SPSS、SPSSModeler等分析工具均以支持聚类分析,但是如何使用,尤其在网游数据分析方面,作用还是很大的,尤其是我们对于某些客群的分析 时,排除人为的分组的干扰,客观和全面的展现客群的特征是一件很重要的事。网游玩家的消费特征、游戏行为特征(副本、任务、交互)、不同生命周期的玩家特征(新登玩家、留存玩家、流失玩家、回流玩家)等等,应用很广泛,然 而我们发现有时候我们的划分是带有主观色彩的。比如明确分组变量、确定分组标准等等。这些特征的提取和指定往往需要很多的行业经验和大量尝试,而我们只希 望分组时兼顾更多的因素和 阅读全文
posted @ 2012-09-16 12:52 dekevin 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 小白学数据分析--à数据指标累计用户数的使用累计用户数是指注册用户数的累计,即可以认为是新用户的累计。在一般的数据统计中,我们基本上都会涉及到这个指标,且这个指标是逐渐累加的,比如:时间 注册用户数[新登用户] 累计注册用户数1日 100 1002日 120 2203日 110 330…那么这个指标究竟有什么用?以前作为我自己也没有想到什么比较好用的方式去分析这个数据,既然存在了这个指标,就有存在的价值。此处,我所提到的分 析思路和方法也是基于电商的一些分析方法,且对于累计用户数的分析,还具有延展性,能够完成一些更深入的分析,今天就简单的来说说这个指标的分析。可以想象的是,如果根据累 阅读全文
posted @ 2012-09-16 12:20 dekevin 阅读(464) 评论(0) 推荐(0) 编辑
摘要: SPSS为我们提供了探索分析,所谓探索分析之所以是探索,是因为有时候我们对于变量的分布特点不是很清楚,探索的目的在于帮助我们完成以下的工作:识别数据:例如数据的分布形式、异常值、缺失值;正态性检验:服从正态分布的检验;方差齐性检验:不同数据组的方差是否相等。有关于方差齐性检验原理、正态分布这里不累述,这里主要介绍SPSS的探索分析使用。数据文件这里使用的文件是不同周期的充值用户的充值数据,这里主要是针对流失用户和活跃用户的充值数据。具体操作首先将源文件加载到SPSS中,选择菜单分析|描述统计|探索,如下图所示:之后弹出对话框如下:在该对话框中,有几个输入的位置:因变量:为我们要分析的目标变量, 阅读全文
posted @ 2012-09-16 12:19 dekevin 阅读(1149) 评论(0) 推荐(0) 编辑
摘要: 上次简单的说了一下SPSS下使用两步聚类分析的大致过程,今天简单说说在Clementine下怎么进行聚类分析,方法同样是两步聚类。之前说过聚类分析是无指导的,揭示的输入字段集的模式,不是一种预测。在我们 输入的字段上进行聚类分析找出组合最佳,能够反映共同属性的模式。两步聚类有两步,第一步是扩展,处理成若干子聚类,第二步利用分层聚类方法进行合并,形 成大的聚类,实际上是剪枝合并的过程,此步不再进行数据处理。分层聚类不需要确定聚类数,这点在两步聚类分析中得以避免,因为分层聚类经常因为处理大数据 量而失败,但是第一步的数据预处理得以避免了这个问题的出现。两步聚类分析的数据要求1) 角色设置必须为输入 阅读全文
posted @ 2012-09-16 12:17 dekevin 阅读(1894) 评论(0) 推荐(0) 编辑