2020年12月27日
摘要: WebMagic入门 1. WebMagic 简介 核心部分是一个精简的, 模块化的爬虫实现, 而扩展部分则包括一些遍历的, 使用性的功能 设计目标是尽量的模块化, 并体现爬虫的功能特点, 这部分提供非常简单, 灵活的API, 在基本不改变开发模式的情况下, 编写一个爬虫 扩展部分提供一些便捷的功能 阅读全文
posted @ 2020-12-27 20:51 小破孩楼主 阅读(322) 评论(0) 推荐(0) 编辑
摘要: Jsoup简介 jsoup是一款Java的HTML解析器,主要用来对HTML解析。 在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容, 就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。 <!-- https://mvnrepo 阅读全文
posted @ 2020-12-27 11:53 小破孩楼主 阅读(419) 评论(0) 推荐(0) 编辑
摘要: 初学爬虫, 今天稍微接触了WebMagic, 刚搭建环境就遇到了问题, 我所使用的版本是最新的 0.73, 该版本对SSL的并不完全,如果是直接从Maven中央仓库下载依赖,在爬取只支持TLS1.2, 即只能用https协议访问的网站时会有SSL的异常抛出 javax.net.ssl.SSLExce 阅读全文
posted @ 2020-12-27 10:40 小破孩楼主 阅读(366) 评论(0) 推荐(0) 编辑