认识爬虫
爬虫概念:(自动化应用程序)又被称为网页蜘蛛,网络机器人。模拟客户端发送网络请求,接收请求响应,自动地抓取互联网信息的程序
爬虫用途:12306抢票,网站上的投票,短信轰炸,百度排名
爬虫分类:①通用爬虫:通常指搜索引擎的爬虫,非定向;②聚焦爬虫:针对特定网站的爬虫,定向
思考:实现一个百度新闻一样的网站怎么做
流程:下载,提取信息,保存

搜索引擎:爬虫(根据关键字)收录大量信息,提供给别人
搜索引擎的局限性:
①通过搜索引擎返回的网页里90%的内容无用
②图片、音频、视频多媒体的内容通用搜索引擎无能为力
③不同用户搜索的目的不完全相同,但是返回内容相同
(ROBOTS)机器人协议:(反爬技术)规定了网站内可抓取内容
发送请求流程:
(DNS)域名解析服务器

浙公网安备 33010602011771号