2011年9月12日

linux文件转码命令iconv (转)

摘要: linux系统里提供的文件转化编码的命令iconv,使用如下:iconv -t utf-8 -f gb2312 -c my_database.sql > new.sql-f 原编码-t 目标编码-c 忽略无法转换的字符 阅读全文

posted @ 2011-09-12 17:29 奋斗者 阅读(26186) 评论(0) 推荐(0) 编辑

simhash算法的原理(转)

摘要: 载自:http://hi.baidu.com/jrckkyy/blog/item/ea2fced9e6cb1fe738012fa9.html第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值 阅读全文

posted @ 2011-09-12 17:12 奋斗者 阅读(10600) 评论(0) 推荐(0) 编辑

simhash与Google的网页去重(转)

摘要: 载自:http://leoncom.org/?p=650607前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹 阅读全文

posted @ 2011-09-12 17:10 奋斗者 阅读(4538) 评论(0) 推荐(0) 编辑

导航