《SEO实战密码》读书笔记#2
2.2 搜索引擎面对的挑战
- 页面抓取需要快而全面
现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几个小时甚至几分钟之内就会被收录。
- 海量数据存储
- 索引处理快速有效,具可扩展性
搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等。
- 查询处理快速准确
- 判断用户意图及人工智能
搜索引擎达到人工只能,了解用户搜索词的意义和目的。
2.3搜索结果显示格式
- 富摘要
- 面包屑导航
2.4 搜索引擎工作原理简介
- 蜘蛛
蜘蛛会先访问网站根目录下的robots.txt文件。蜘蛛也有表明自己身份的代理名称。站长可以在日志文件中看到是搜索引擎的特定的代理名。
- 跟踪链接
蜘蛛会跟踪页面上的链接,广度优先于深度优先,常是混用的。
- 吸引蜘蛛
网站和页面权重、页面更新度、导入链接、与首页点击距离。
- 地址库
人工录入、蜘蛛抓取、站长提交
- 文件存储
页面数据与用户浏览器的到的HTML是完全一样的。
- 爬行时的复制内容检测
遇到权重低的网站上大量转载或抄袭内容时,很可能不再继续爬行。