什么是搜索引擎蜘蛛(spider)
什么是搜索引擎蜘蛛(spider)
搜索引擎蜘蛛(spider):
可简称为蜘蛛,本意为搜索引擎机器人(robot),称为蜘蛛的原因是将互联网比喻成蜘蛛网,将机器人比喻成了在网上爬行的蜘蛛,是搜索引擎自动抓取网页的程序。
搜索引擎蜘蛛的作用:通过这些搜索引擎蜘蛛的爬行会自动将网页添加到搜索引擎的数据库当中,搜索引擎蜘蛛会自动判断网页的质量,根据既定的程序判断是否抓取。
搜索引擎蜘蛛的名称:以下为目前国内知名度比较高的搜索引擎的名字,还有很多的搜索引擎蜘蛛但是由于知名度不高,我就不一一列举了。
Google的蜘蛛: Googlebot 、
百度的蜘蛛:baiduspider 、
雅虎中国的蜘蛛:Yahoo! Slurp China 、
MSN的蜘蛛:Msnbot 、
有道的蜘蛛:YoudaoBot、
搜狗的蜘蛛:Sogou web spider
查看搜索引擎蜘蛛的来访记录,需要通过网站访问日志文件来查看,具体获取方法请咨询服务器提供商。
如果你想获得搜索引擎蜘蛛的亲赖,希望他天天爬行抓取网页的话,那就需要持续保持原创文章的更新,并且定期交换友情链接。
如果你不希望某个搜索引擎的蜘蛛来抓取你的网页,可以通过设置robots.txt来禁止抓取。
转载声明:本文转自 http://www.seojiaoshi.cn/mingci/spider.htm
================================================================================
以搜索引擎蜘蛛角度来分析蜘蛛抓取网页的过程
时间上必须更多的节约出来,不 能再去学C。如果以后需要高效率要用C,再用C做。数据库可以不变,MYSQL可以和C连接。PHP有优点也有缺点,做蜘蛛,问题应该不大。最大的问题 是有可能速度很慢。
这里可以用for循环语句,按照英文字母自动循环。当然,网站建设不只有英文,还有和数字,这些只能手工输入了。如果还是循环抓取,估计有很多都要落空。抓到的代码需要分析编码类型是utf-8还是gb2312.我的搜索引擎只想抓简体中文。
如果抓取超时,则记录,下次大概十天之后再抓取,如果连续超时三次,将T出数据库。
二.索引的建立是个很棘手的问题。
假如索引是放内存里,读取速度将是非常OK的。我只有一台服务器,就算只放常见的5万个查询词语的索引进去,估计也有点累。一个页面至少有20K, 5万个页面就是20K*50=1G。这还只是5万个词的第一个页面。如果用户要翻页查询呢,内存肯定不够。假如只放第一页进内存,用户翻页查询,速度 将无法解决。所以我准备全静态。把5万个词语的查询模拟一次,然后生成静态页面。所有词的第一页放内存,后面的页面放硬盘里。如果能把页面 放内存,这个问题就已经解决了。
三.词库。
四.所有的影响排序的算法,应该是放一个表里。
五.数据库的索引目前还没 有很好的解决办法。
一个表达索引肯定不能太多,多了会影响速度。六.数据库的结构。这个很关键。估计要在网站前台界面出来之前就得先把数据 库结构定下来。还要
为以后的升级留下接口,比如算法因素要增加,或者为了优化查询语句,要变动字段等等。初步结构是这样的。
转载声明:本文转自 http://www.seojiaoshi.cn/mingci/spider.htm
================================================================================