认识爬虫

爬虫概念：（自动化应用程序）又被称为网页蜘蛛，网络机器人。模拟客户端发送网络请求，接收请求响应，自动地抓取互联网信息的程序

爬虫用途：12306抢票，网站上的投票，短信轰炸，百度排名

爬虫分类：①通用爬虫：通常指搜索引擎的爬虫，非定向；②聚焦爬虫：针对特定网站的爬虫，定向

思考：实现一个百度新闻一样的网站怎么做

流程：下载，提取信息，保存

搜索引擎：爬虫（根据关键字）收录大量信息，提供给别人

搜索引擎的局限性：

①通过搜索引擎返回的网页里90%的内容无用

②图片、音频、视频多媒体的内容通用搜索引擎无能为力

③不同用户搜索的目的不完全相同，但是返回内容相同

（ROBOTS）机器人协议：（反爬技术）规定了网站内可抓取内容

发送请求流程：

（DNS）域名解析服务器

posted @ 2018-11-27 11:12 --余生请多指教阅读(638) 评论(0) 收藏举报

刷新页面返回顶部