摘要: PageRank 算法PageRank 是Google 创始人于1997 年构建早期的搜索系统原型时提出的链接分析算法(参见图6-8),自从Google 在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank 算法基础上衍生出来的。从入链数量到PageRank在PageRank 提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,这种入链方法假设一个网页的入链越多,则该网页越重要。早期的很多搜索引擎也采纳了入链数量作为链接分析方法,对于搜索引擎效果提升也有较明显的效果。PageRank 除了考虑到入链数量的影响 阅读全文
posted @ 2012-01-10 19:23 博文视点(北京)官方博客 阅读(351) 评论(0) 推荐(0) 编辑
摘要: --这就是搜索引擎:核心技术详解张俊林著ISBN978-7-121-14865-12012年1月出版定价:45.00 元16开320页宣传语:改变全世界人们生活方式的“信息之门”内 容 简 介搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分 阅读全文
posted @ 2012-01-10 19:15 博文视点(北京)官方博客 阅读(262) 评论(0) 推荐(0) 编辑
摘要: HITS 算法(Hypertext Induced TopicSelection)HITS 算法也是链接分析中非常基础且重要的算法,目前已被Teoma 搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。Hub 页面与Authority 页面Hub 页面和Authority 页面是HITS 算法最基本的两个定义。所谓Authority 页面,是指与某个领域或者某个话题相关的高质量网页。比如搜索引擎领域,Google 和百度首页即该领域的高质量网页;比如视频领域,优酷和土豆首页即该领域的高质量网页。所谓的Hub页面,指的是包含了很多指向高质量Authority 页面链接的网页,比 阅读全文
posted @ 2012-01-10 19:14 博文视点(北京)官方博客 阅读(397) 评论(0) 推荐(0) 编辑