文章分类 -  数据挖掘与分析

摘要:AIDMA模型是消费者行为学领域很成熟的理论模型之一,由美国广告学家E.S.刘易斯在1898年提出。该理论认为,消费者从接触到信息到最后达成购买,会经历这5个阶段: A:Attention(引起注意)——花哨的名片、提包上绣着广告词等被经常采用的引起注意的方法 I :Interest (引起兴趣)— 阅读全文
posted @ 2022-12-13 16:49 subsir 阅读(760) 评论(0) 推荐(0) 编辑
摘要:最近新领导突然跟我提出,让我去了解 双环模型。 网上查了查, 发现有一个 消费者决策模型(五步模型)。 咨询研读了下,觉得不错。 分享出来; 这个消费者决策模型是一个过程模型。它讲的是,当消费者做一个购买的决策时,大概经历哪几个步骤。(模型的意义之一是工具性,模型是理解一个事情的工具,将一个事情分拆 阅读全文
posted @ 2022-12-13 16:23 subsir 阅读(849) 评论(0) 推荐(0) 编辑
摘要:据不完全统计,76%的门店经营者认为分析每日、每周和每月的各维度转化率指标非常关键;48%的门店经营者在入口处安置了客流统计仪;54%的门店经营者通过客单价水平,管控门店的商品结构;41%的门店经营者通过客单数和连带率,制定门店的主题促销活动方案;33%的门店经营者通过回头率和会员贡献,制定会员促销 阅读全文
posted @ 2021-05-26 18:25 subsir 阅读(8855) 评论(0) 推荐(0) 编辑
摘要:在某公司工作时,曾发现过一个诡异的事情。 当时正在做公司整体的战略规划,发现公司客户各年龄段的客单价都是呈上升趋势,可是整体客单价却出现下滑。 今天听了公司内部的一个分享课才知道, 原来这个就是 辛普森悖论。 人懒,懒得自己整理数据和文字,就直接转载网上搜索来的博客 辛普森悖论是一种统计现象,实验群 阅读全文
posted @ 2016-09-22 17:12 subsir 阅读(6794) 评论(1) 推荐(0) 编辑
摘要:数据的标准化 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力... 阅读全文
posted @ 2015-08-26 17:29 subsir 阅读(4639) 评论(0) 推荐(0) 编辑
摘要:在社会科学研究中,主要的多变量分析方法包括多变量方差分析(Multivariate analysis of variance,MANOVA)、主成分分析(Principal component analysis)、因子分析(Factor analysis)、典型相关(Canonical correl... 阅读全文
posted @ 2014-09-26 11:42 subsir 阅读(2055) 评论(0) 推荐(0) 编辑
摘要:自然语言处理(ML),机器学习(NLP),信息检索(IR)等领域,评估(evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(accuracy),精确率(Precision),召回率(Recall)和F1-Measure。本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有... 阅读全文
posted @ 2014-05-14 10:59 subsir 阅读(22695) 评论(0) 推荐(2) 编辑
摘要:主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。基本思想主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析,是... 阅读全文
posted @ 2014-05-09 15:03 subsir 阅读(13171) 评论(0) 推荐(0) 编辑
摘要:关联规则最早是由R.Agrawal等人针对超市购物篮分析问题提出的,其目的是发现超市交易数据库中不同商品之间的关联关系。 关联规则体现了顾客购物的行为模式,这可以为经营决策、市场预测和策划等方面提供依据。关联规则挖掘系统已经被成功应用于市场营销、银行业、零售业、保险业、电信业和公司经营管理等各个方面 阅读全文
posted @ 2014-03-24 17:49 subsir 阅读(5867) 评论(0) 推荐(0) 编辑
摘要:前言第一章找准定位:锁定目标客户1.剥离非目标客户,做好市场细分2.明确目标客户及寻找客户的原则3.如何把目标客户定位精细化4.寻找目标客户的十大方法5.了解客户的真正需求6.让潜在客户主动“敲门”7.发掘潜在客户的智慧与方法第二章化解“拒绝”:在拒绝中寻找机会8.导致客户流失的十大原因9.遭受客户拒绝的六大原因10.识别客户拒绝的四种方法11.做好被客户拒绝的心理和策略准备12.把握化解“拒绝”的三大时机待续。。。 阅读全文
posted @ 2013-06-04 23:00 subsir 阅读(227) 评论(0) 推荐(0) 编辑
摘要:Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法:1.基于用户的相似度2.相近的用户定义与数量特点:1.易于理解2.用户数较少时计算速度快GenericItemBasedRecommender算法:1.基于item的相似度特点:1.item较少时就算速度更快2.当item的外部概念易于理解和获得是非常有用SlopeOneRecommender(itemBased)算法:1基于SlopeOne算法(打分差异规则)特点速度快需要预先计算当item数目十分少了也很有效需要限制diffs的存储数目否则内存增长太快SVDRecommender(item-bas 阅读全文
posted @ 2013-03-04 19:52 subsir 阅读(697) 评论(0) 推荐(0) 编辑
摘要:媒体网站KPI跳出率:指在只访问了入口页面就离开的浏览量与所产生总浏览量的百分比。平均停留时间:这个指标统计的是平均一个会话用户停留的时间。停留时间越高,表明用户对品牌网站的喜好程度越高。平均页面访问数:统计的是平均一个会话的综合浏览次数,即用户看了几个网页。转化:潜在客户完成一次推广商户期望的行动,包括注册、下订单、付款等。转化率:衡量网站内容对访问者的吸引程度以及网站的宣传效果,所有访客中完成转化目标的百分比。媒体接触次数:通过在线媒体,消费者到达品牌官网的次数。媒体影响力指数:通过对在线媒体带来流量的平均停留时间、跳出率、平均访问页面数、品牌转化率四种指标的加权计算得到在线媒体影响力指数 阅读全文
posted @ 2013-01-30 19:29 subsir 阅读(700) 评论(0) 推荐(0) 编辑
摘要:转载:http://blog.sina.com.cn/s/blog_5caa94a00100ya8t.html 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离 阅读全文
posted @ 2013-01-16 19:24 subsir 阅读(474) 评论(0) 推荐(0) 编辑
摘要:链: 古代软兵器的中介之物,故名思意.有着连接、衔接的意思.拉链算法是目前数据仓库领域比较XX的算法之一..通用非常广.记录数据量很大且为全量实体记录 历史的操作。例如,某某移动通信公司客户资料,以河北为例,河北有客户2800W,客户资料每个一条就是2800W条记录算上历史客户,全量大概有 5000W条左右。作为数据仓库来存储这些信息几千万条记录不算什么。可是要是记录历史全量所用到的存储就非常的庞大。问题实例为:一般正常情况下,从河 北移动的BOSS系统上每天采集全量的日数据大概为2500W条,历史存储每天存储一个2500W条的日表,存储三个月,就需要3*30*2500W条的 数据存储空间.. 阅读全文
posted @ 2013-01-15 16:51 subsir 阅读(3995) 评论(0) 推荐(0) 编辑
摘要:数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。 数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(... 阅读全文
posted @ 2013-01-15 11:12 subsir 阅读(556) 评论(0) 推荐(0) 编辑
摘要:在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面来看看主要可以用哪些方法来衡量两者的差异,主要分为距离度量和相似度度量。 距离度量 距离度量(Distance)用于衡量个体在空间上存在... 阅读全文
posted @ 2013-01-07 19:32 subsir 阅读(706) 评论(0) 推荐(0) 编辑
摘要:转载:http://blog.csdn.net/ecjtuxuan/article/details/6273983 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型, 如图 2 。 星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的... 阅读全文
posted @ 2013-01-05 19:30 subsir 阅读(1245) 评论(0) 推荐(0) 编辑
摘要:原文摘自腾讯开放平台,作者火谷网络:http://kan.weibo.com/con/3520542683307627?_from=image任何一款游戏运营,都是以UED、数据分析为导向,如何开发、运营好一款成功的全球社交游戏,是每个社交游戏产品经理头等大事。用数据说话,是一个简单明快的操作方式,但社交游戏的数据如何分类?海内外关注点有何区别?相信作为每个社交游戏产品经理是非常关心的话题,那么我们就从基础知识入手,逐步梳理出符合运营需求的核心数据环节,抛弃冗长复杂的多类数据,为自己的成功打下扎实的基础。付费率=付费用户÷活跃用户x100活跃率=登陆人次÷平均在线人数ARP 阅读全文
posted @ 2012-12-29 15:31 subsir 阅读(610) 评论(0) 推荐(0) 编辑
摘要:摘自《市场研究网络版》——谢邦昌教授1、记忆基础推理法(Memory-Based Reasoning;MBR) 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关.. 阅读全文
posted @ 2012-12-27 01:44 subsir 阅读(417) 评论(0) 推荐(0) 编辑
摘要:转载:http://blog.csdn.net/aladdina/article/details/4141177国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。1.C4. 阅读全文
posted @ 2012-12-27 01:24 subsir 阅读(587) 评论(0) 推荐(0) 编辑