信息指纹（Fingerprint）及其应用

1.应用：

i.网页地址去重

网页地址有100个字符，存储5000亿个网址本身需要50T的容量，而Hash表的存储效率只有50%，所有存储爬虫已经爬过的网址需要100T的内存

解决办法：将网址随机映射到128个bit上，即16个字节的整数空间上，每个网址只需要16个字节，而不是100个了，内存的需求量下降到原来的1/6不到，这16个字节的随机数，就称作该网址的信息指纹

步骤：a.现将网址转为数值（每个字符对应的ascii）b.通过伟随机数产生器，将得到的数值转为16个字节的整数

在互联网上加密要使用基于加密的伪随机数产生器，常用MD5或者SHA-1等标准

ii.判定集合是否相同：

a.场景：

两个查询，如“北京中关村星巴克”和“星巴克中关村北京”是否相同；一个人是否用两个不同的账号对同一群人发垃圾邮件；网上的一首歌是否是盗版别人的

需要将查询或者群体的邮件列表存储在两个集合里，然后判断两个集合是否相同即可

b.算法选择：

两次变量对比：时间复杂度为O(N^2)

先排序，后遍历对比：时间复杂度为O(NlogN)

先将一个集合放入HashSet，然后判断另一个集合的元素是否都在HashSet里，时间复杂度为O(N)，但是有额外的空间负责度O(N)

完美的方案：对单个集合的元素求其信息指纹，然后相加，与两一个集合的信息指纹和比较，来判断两个集合元素是否相同，时间复杂度为O(N)；用加法的交换率，消除了元素次序对结果的影响

c.电子邮件的问题：

如果按照b的思路，两次邮件列表里只有一两个用户不同，则需要对步骤进行一个修改，即按照同样的规则（如尾数为24的）对邮件列表进行过滤，如果他们的指纹相同，或者是否有80%以上的相同率，来判断两个邮件列表是否相同

d.两篇网页、文章是否相同

对两篇文章先去掉常见词、然后去掉出现一次的词（噪音），在剩下的词中对IDF最大的词进行信息指纹的求和、比较，即可判断是否是相同的文章；为了保证容错性，采取了相似哈希的信息指纹（见后文）

iii.视频的反盗版：

视频匹配两个核心技术：关键帧的提取和特征的提取，MPEG视频每秒有30帧图像，但是只有极少数的关键帧是完整的影像，其他帧存储的是和关键帧相比的差异值

提取出视频中的关键帧（类似于主题词对新闻），然后对其最信息指纹的

2.指纹重复的可能性：

128位的伪随机数，其k个指纹不重复的概率为

，Pk随着k的增大而减小，当Pk<0.5时，k个指纹重复的期望超过1，此时k的最大值为：

在128bit时，N为2^128，所以k约等于2^64，即一千八百亿亿次才能重复一次，因此不同信息产生相同指纹的可能性几乎为0

3.相似哈希（Simhash）

如果网页中若干词T1,T2,...,Tk，其权重（如TF-IDF）为W1,W2,...,Wk，先计算其信息指纹（这里以8bit为例），在计算相似哈希：

i.扩展：

将8bit的信息指纹扩展为8个实数：对于每一个词一个词Tk，如果其第n位为1，则第一个实数Rn加Wn，如果为0，则Rn减Wn；最后得到8个实数，

ii.收缩：

然后将8个实数收缩，Rk>0?1:0，变为一个8位的二进制，即是其相似哈希指纹

iii.场景：

少数权重小的词不同的情况下，相似哈希也会相同

用64位的相似哈希做对比，如果两者相差一位，其网页内容重复的可能性大于80%

posted @ 2017-01-16 15:24 成金之路阅读(3356) 评论(0) 收藏举报

刷新页面返回顶部

成金之路