摘要: WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。 采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来实现多线程,创建链接池,自动解析网页代码获取请求链接,封装正则表达式等等。 但是如果使用框架,就不再 阅读全文
posted @ 2017-04-24 16:43 灼眼的健 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 爬虫顺序 1.分析网站网络请求 通过浏览器F12开发者工具查看网站的内容获取方式。 2.模拟HTTP请求,获取网页内容。 可以采用HttpClient,利用JAVA HttpClient工具可以模拟HTTP GET、POST请求,可以用来获取爬虫需要的数据。JAVA的一些爬虫框架底层用到的获取网页方 阅读全文
posted @ 2017-04-24 15:22 灼眼的健 阅读(1052) 评论(0) 推荐(0) 编辑
摘要: 分析博客园网站的请求可以发现,博客园的分页请求为POST方式,和知乎的滚动加载类似。 不同的是请求响应返回的是HTML而不是JSON。 这样可以套用上一篇爬知乎的代码,需要修改的部分就是POST方法传的参数,直接用map,还有解析HTML的部分。 模拟POST请求 HTML内容的提取部分 因为HTM 阅读全文
posted @ 2017-04-24 15:21 灼眼的健 阅读(368) 评论(0) 推荐(0) 编辑