摘要: 今天继续学习webmagic爬虫技术,组件包含: 1.Downloader Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。 2.PageProcessor PageProcessor负责解析页面,抽取有用信息,以及 阅读全文
posted @ 2020-02-10 23:57 集 阅读(121) 评论(0) 推荐(0) 编辑