网络爬虫
1.名词定义
分类:
1)普通网络爬虫
一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
爬行策略:深度优先策略,广度优先策略
2)聚焦网络爬虫
需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止
需要解决的三个问题:对抓取目标的描述和定义;对网页数据的分析和过滤;对url的过滤策略
3)增量式爬虫
对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面
4)Deep Web爬虫
Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面
例如那些用户注册后内容才可见的网页
2.需注意
1)爬行策略
独立方式(各个爬虫独立爬行页面,互不通信)、动态分配方式(由一个中央协调器动态协调分配 URL 给各个爬虫)、静态分配方式(URL 事先划分给各个爬虫)
2)网页搜索策略
深度优先、广度优先和最佳优先三种
3)网页分析算法
基于网络拓扑、基于网页内容、基于用户访问行为
4)网页爬行策略变难几点网页特性
巨大的数据访问量,快速的更新频率,动态网页的产生
3.工具使用
八爪鱼,import.io都可以!
不虚度光阴,享受生命里的每一天!