05 2012 档案

摘要:万物起始皆维基:http://en.wikipedia.org/wiki/Locality-sensitive_hashing上面给出了4类方法,我只看了其中的两个 bit sampling 和 p-Stable , 其他两个有空再加上---------------------------------------------------------------------------------------------------------------------------几个学术类的网址l2范数下的LSH 也就是所谓的P-Stable方法:http://www.mit.edu/~ando 阅读全文
posted @ 2012-05-29 18:45 glose 阅读(756) 评论(0) 推荐(0) 编辑
摘要:Detecting Near-Duplicates for Web Crawling(转载:http://blog.csdn.net/eaglex/article/details/6297684)问题背景:在互联网中有很多的网页的内容(content)是一样的,但是他们的网页元素却不是完全相同的,因为每个域名下的网页总会有一些自己的东西,比如广告(advertisement)、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只有内容部分才是有意义的,而后面的那些虽然不同,但是对搜索结果没有任何影响,所以在判定内容是否重复的时候,应该忽视后面的部分,当新爬取的content和数据库中的某个网页 阅读全文
posted @ 2012-05-27 09:54 glose 阅读(675) 评论(0) 推荐(0) 编辑
摘要:目前,随着全球信息产业在不断融合发展,网络资源与数据规模也在不断增长,尤其是在科学研究(天文学、生物学、高能物理)等、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势,并由此产生了许多机遇。 传统的数据分析技术已经越来越不适应当前密集型海量数据处理的需求。而近几年兴起的云计算(Cloud Computing),其实本质上是一种新的提供资源按需租用的服务模式,是一种新型的互联网数据中心(Internet Data Center,IDC)业务。可以根据需要访问的计算机和存储系统中的数据,把网络中的计算资源集中起来,虚拟为一个资源池,并且使用特定的软件实现自动化、智能化,使得各... 阅读全文
posted @ 2012-05-23 10:04 glose 阅读(2246) 评论(0) 推荐(0) 编辑
摘要:这里我想讨论下5个解决网页去重的算法,转载自(http://blog.csdn.net/beta2/article/details/5014530)1. I-Match2. Shingliing3. SimHashing( locality sensitive hash)4. Random Projection5. SpotSig6. combinedI-Match算法 I-Match算法有一个基本的假设说:不经常出现的词和经常出现的词不会影响文档的语义,所以这些词是可以去掉的。 算法的基本思想是:将文档中有语义的单词用hash的办法表示成一个数字,数字的相似性既能表达文档的相似性 ... 阅读全文
posted @ 2012-05-15 13:37 glose 阅读(821) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示