文章分类 -  数据挖掘与分析

摘要:二八定律也叫巴莱多定律,是19世纪末20世纪初意大利经济学家巴莱多发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%的尽管是多数,却是次要的,因此又称二八法则。简介 1897年,意大利经济学者帕累托偶然注意到19世纪英国人的财富和收益模式。在调查取样中,他发现大部份的财富流向了少数人手里,同时,他还发现了一件非常重要的事情,即某一个族群占总人口数的百分比和他们所享有的总收入之间有一种微妙的关系。他在不同时期、不同国度都见过这种现象。不论是早期的英国,还是其他国家,甚至从早期的资料中,他都发现这种微妙关系一再出现,而且在数学上呈现出一种稳定的关系。 于... 阅读全文
posted @ 2012-09-29 16:19 subsir 阅读(573) 评论(0) 推荐(0) 编辑
摘要:转载:http://wiki.mbalib.com/wiki/消费者偏好什么是消费者偏好 消费者偏好是指消费者对一种商品(或者商品组合)的喜好程度。消费者根据自己的意愿对可供消费的商品或商品组合进行排序,这种排序反映了消费者个人的需要、兴趣和嗜好。某种商品的需求量与消费者对该商品的偏好程度正相关:如果其他因素不变,对某种商品的偏好程度越高,消费者对该商品的需求量就越多。消费者偏好的类型 消费者偏好可以划分为四种基本类型: 第一种类型:如果消费者的偏好不稳定又含糊的话,要提供给他们一个满意的解决方案,以满足其偏好是不可能的。然而,因为他们对自己的偏好不了解,因此易被影响,易被企业劝说相信其... 阅读全文
posted @ 2012-09-25 16:37 subsir 阅读(330) 评论(0) 推荐(0) 编辑
摘要:网站统计分析怎么看1. 浏览量:监测页面被浏览的次数。广告活动中总浏览量是指:广告为mini-site带来的总PV数。2. 二跳、二跳量:用户在被监测页面产生的首次点击数称为“二跳”,所有用户的“二跳”之和为二跳量。二跳率的高低通常反映了用户是否适应页面的结构,是否对页面呈现的内容感兴趣,同时二跳率还可以体现流量的质量。3. 二跳率:二跳量与浏览量的比值。4. “二跳时间”:指用户打开当前页面到在当前页面产生第一次点击所用的时间。平均二跳时间是指所有用户二跳时间的平均值。平均二跳时间的长短,通常由您的网站结构、网页内容以及来访用户对网站的熟悉程度而定5. 流入量:指用户从网站外部(如搜索引擎、 阅读全文
posted @ 2012-09-18 00:16 subsir 阅读(377) 评论(0) 推荐(0) 编辑
摘要:简介:Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎,帮助 Web 应用开发者更高效的实现个性化推荐功能,从而提高最终用户满意度。 推荐引擎简介推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例 阅读全文
posted @ 2012-09-17 23:58 subsir 阅读(376) 评论(0) 推荐(0) 编辑
摘要:转载:http://www.cnblogs.com/lexus/archive/2011/11/30/2268522.html总感觉论文对于工业界来说用处真的不如学校做课题、论文那么大,只要知道某个算法好不好用以及怎么用就可以了,也不必知道太多的细节和数学推导。但根据一个好的算法,产品部门可以设计出很多很酷的产品,让用户倍感web应用的人性化。在看书,看大牛们的博客时,学习到了很多算法和思路。现在总结一下:1、Item based collective filtering这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一。对于商城网站(以Amazon为代表,当然也包括京东那种具 阅读全文
posted @ 2012-09-13 02:03 subsir 阅读(291) 评论(0) 推荐(0) 编辑
摘要:转载:http://www.dwway.com/article-8715-1.html数据质量管理 由于数据清洗(DataCleaning)工具通常简单地被称为数据质量(Data Quality)工具,因此很多人认为数据质量管理,就是修改数据中的错误、是对错误数据和垃圾数据进行清理。这个理解是片面的,其实数据清洗只是数据质量管理中的一步。数据质量管理(DQM),不仅包含了对数据质量的改善,同时还包含了对组织的改善。针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容;针对组织的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制. 阅读全文
posted @ 2012-08-29 21:51 subsir 阅读(2899) 评论(0) 推荐(0) 编辑
摘要:数据仓库应用中,宽表模型以结构简单,模型容易理解,数据访问效率等优势,被业界广泛采用。所谓宽表就是,基于某个实体分析对象而建立的一个逻辑数据体系,由实体的维度、描述信息、以及基于这个实体一系列度量组成。它是一个逻辑的概念,在物理实现中不可能就针对一个实体对象建立一个大宽表。因为这样,对于,刷新效率,容错能力,扩展能力都是一个很大的挑战,如何设计和组织宽表的体系结构呢?其实,我们回到软件设计的基本思想-高内聚,低耦合。我们要从在业务、ETL刷新、指标属性、数据来源等角度,让高度内聚的属性、描述、度量放在一个表中。基本可以从两个维度矩阵进行切割:第一:按实体属性可能涉及的业务范围进行划分第二:.. 阅读全文
posted @ 2012-07-13 01:19 subsir 阅读(483) 评论(0) 推荐(0) 编辑
摘要:前段时间在做一个挖掘模型时,模型的特征决定了选择的数据是严重有偏的,怎样在这样的数据上进行抽样,得到能比较好地反映真实情况的数据样本是很关键的。自己对统计学仅仅限于大学课程的学习,很少做过实验,在做数据预处理走了一些弯路。下面对数据挖掘中的抽样发表一点浅见。在数据挖掘的数据预处理过程中,宽表数据往往是几十万,上百万级记录的。要对所有数据进行训练,时间上很难满足要求,因此对数据进行抽样就很必要了,不同的数据抽样方法对训练结果模型的精度有很大影响。可以考虑用一些数据浏览工具,统计工具对数据分布做一定的探索,在对数据做充分的了解后,再考虑采用合适的数据抽样方法,抽取样本数据进行建模实验。对一般的模型 阅读全文
posted @ 2012-07-13 01:18 subsir 阅读(718) 评论(0) 推荐(0) 编辑