【细嚼慢咽大数据】第一章——数据挖掘基本概念,邦弗朗尼原理,IF.IDF指标,哈希函数
1 数据挖掘的定义:数据挖掘是数据“模型”的发现过程。
统计学家认为数据挖掘就是统计模型的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。
2 模型:
建模方法可以描述为下列两种做法之一:
(1)对数据进行简洁的近似汇总描述;——数据汇总
(2)从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。——特征提取
3 数据汇总
(1)PageRank:一种Web结构上的随机游走者在任意给定时刻处于该页的概率。PageRank的一个非常好的特性就是它能够很好地反映网页的重要性,即典型用户在搜索时期望返回某个页面的程度。
(2)聚类:数据被看成是多维空间下的点,空间中相互临近的点将被赋予相同的类别。
4 特征提取
基于特征的模型会从数据中寻找某个现象的最极端样例,并使用这些样例来表示数据。
(1)频繁项集:该模型适用于多个小规模项集组成的数据。如某些物品会被顾客同时购买,例如汉堡和番茄酱,这些物品就组成了所谓的项集。(购物篮问题)
(2)相似项:很多时候,数据往往看上去相当于一些列集合,我们的目标是寻找那些共同元素比较高的集合对。例如,将在线商店的顾客看成是其已购买的商品的集合。寻找相似的顾客群,并把他们当中大部分人购买过的商品也推荐给他。该过程称为协同过滤。·
4 邦弗朗尼原理——避免将随机出现看成真正出现
在数据随机性假设的基础上,可以计算所寻找时间出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。
例如,只需要寻找那些几乎不可能出现在随机数据中的罕见事件来发现恐怖分子即可。
5 用于度量词语重要性的IF.IDF指标
一般来说,文档的主题主要通过找到一些特定的能够体现主题的词语来刻画。因此,分类的第一步往往是考察文档并从中找出重要的词语。
描述主题的词语往往都相对罕见,并且在文章中反复出现。
这种度量给定词语在少数文档中反复出现程度的形式化指标成为TF.IDF。
假定文档集中有N篇文档,f(i,j)为词项i在文档j中出现的频率,于是,词项i在文档j中的词项频率TF(i,j)定义为:
TF(i,j) = f(i,j) / max(k) f(k,j)
也就是词项i在文档j中的词项频率f(i,j)归一化结果,其中归一化通过f(i,j)除以同一文档中出现最多的词项的频率来计算。因此,文档j中出现频率最大的词项的TF值为1,而其他词项的TF值都是分数。
假定词项i在文档集的n(i)篇文档中出现,那么词项i的IDF定义如下:
IDF(i) = log2 (N/ni)
于是,词项i在文档j中的得分被定义为TF(i,j)*IDF(i),具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项。
6 哈希函数——哈希键不是整数
从某种意义上说,所有数据类型的值都是由比特位组成的,而比特位序列常常可以解释成整数。
7 幂定律
关于x和y的幂定律的一般形式为:logy = b + alogx
两边取e的值数,则有y = cx(a), x(a)表示x的a次幂,其中a,c都是常数。
很多数据都满足幂定律:
- Web图当中节点的度
- 商品的销量
- Web网站的大小
- Zipf定律