Python通用爬虫，聚焦爬虫概念理解

通用爬虫：百度、360、搜狐、谷歌、必应.......

原理：

（1）抓取网页

（2）采集数据

（3）数据处理

（4）提供检索服务

百度爬虫：Baiduspider

通用爬虫如何抓取新网站？

（1）主动提交url

（2）设置友情链接

（3）百度会和DNS服务商合作，抓取新网站

检索排名

（1）竞价排名

（2）根据pagerank值排名，由访问量，点击量得出，SEO岗位做的工作

如果不想让百度爬虫你的网站：加一个文件robots.txt，可以限定哪些可以爬取我的网站，哪些不可以，例如淘宝的部分robots.txt内容：

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /
这个协议仅仅是口头上的协议，真正的还是可以爬取的。
聚焦爬虫：根据特定的需求抓取指定的数据。
思路：代替浏览器上网
    网页的特点：
       （1）网页都有自己唯一的url
       （2）网页内容都是HTML结构的
       （3）使用的都是http,https协议
（1）给一个url
（2）写程序，模拟浏览器访问url
（3）解析内容，提取数据

posted @ 2019-09-09 10:01 木&子阅读(605) 评论(0) 编辑收藏举报

刷新页面返回顶部

郑州大学计算机李银霞

Python通用爬虫，聚焦爬虫概念理解

公告