搜索引擎

工作原理简介
工作过程三阶段:
1、爬行和抓取:搜索引擎机器人(也称蜘蛛)跟踪链接url访问网页,获取页面代码存入数据库;
2、预处理:索引程序对所抓取页面数据进行分析和文字提取等处理;
3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,最后按一定格式生成搜索结果页面。

蜘蛛访问一个网站时,会先访问网站根目录下robots.txt文件,并遵守协议确定是否获得抓取网址的权限。在获得权限许可后,蜘蛛会爬行遍历页面上的链接,通常有两种方式遍历爬行:深度优先和广度优先。虽然理论上能爬行和抓取所有页面,但实际上并不会这么做。
吸引蜘蛛的因素:
网站页面权重:网页深度、内页被收录多;
页面更新度:蜘蛛的放弃已经存储过并且没有更新的网页;
与首页的层级高低:层级越近首页,权重越高,被蜘蛛爬行机会越大。

网页常用SEO优化手段:原创度、更新频率、【相关度】和外链权重。用户体验也会影响网站在搜索引擎中的排名,搜索引擎会记录用户点击行为,包括点击率,点击深度等,记录下来,表现好会有利于提高排名,表现差就反之,百度表现明显。

爬行复制内容检测:蜘蛛在爬行和抓取文件时会进行一定程度的复制内容检测。对权重低的网站上有大量重复抄袭内容,将取消继续爬行。
《SEO实战密码》

posted @ 2017-02-14 14:46  Ajay_er  阅读(173)  评论(0编辑  收藏  举报