《SEO实战密码》读书笔记#2

2.2 搜索引擎面对的挑战

  • 页面抓取需要快而全面  

    现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几个小时甚至几分钟之内就会被收录。

  • 海量数据存储
  • 索引处理快速有效,具可扩展性

    搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等。

  • 查询处理快速准确
  • 判断用户意图及人工智能

    搜索引擎达到人工只能,了解用户搜索词的意义和目的。

2.3搜索结果显示格式

  • 富摘要
  • 面包屑导航

2.4 搜索引擎工作原理简介

  • 蜘蛛

    蜘蛛会先访问网站根目录下的robots.txt文件。蜘蛛也有表明自己身份的代理名称。站长可以在日志文件中看到是搜索引擎的特定的代理名。

  • 跟踪链接

    蜘蛛会跟踪页面上的链接,广度优先于深度优先,常是混用的。

  • 吸引蜘蛛

    网站和页面权重、页面更新度、导入链接、与首页点击距离。

  • 地址库

    人工录入、蜘蛛抓取、站长提交

  • 文件存储

    页面数据与用户浏览器的到的HTML是完全一样的。

  • 爬行时的复制内容检测

    遇到权重低的网站上大量转载或抄袭内容时,很可能不再继续爬行。

 

posted @ 2013-07-03 23:05  yumuxu  阅读(233)  评论(0编辑  收藏  举报