04 2017 档案

摘要:webMagic虽然方便,但是也有它不适用的地方,比如定向的某个单页面爬虫,或者存在大量ajax请求,页面的跳转请求全都混淆在js里。 这时可以用webMagic结合phantomjs来真实模拟页面请求,即不仅仅获取数据,而是将整个页面完整渲染出来。虽然这样会使爬虫速度变慢很多,但是不失为一种快捷方 阅读全文
posted @ 2017-04-25 09:39 灼眼的健 阅读(1024) 评论(0) 推荐(0) 编辑
摘要:WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。 采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来实现多线程,创建链接池,自动解析网页代码获取请求链接,封装正则表达式等等。 但是如果使用框架,就不再 阅读全文
posted @ 2017-04-24 16:43 灼眼的健 阅读(739) 评论(0) 推荐(0) 编辑
摘要:爬虫顺序 1.分析网站网络请求 通过浏览器F12开发者工具查看网站的内容获取方式。 2.模拟HTTP请求,获取网页内容。 可以采用HttpClient,利用JAVA HttpClient工具可以模拟HTTP GET、POST请求,可以用来获取爬虫需要的数据。JAVA的一些爬虫框架底层用到的获取网页方 阅读全文
posted @ 2017-04-24 15:22 灼眼的健 阅读(1073) 评论(0) 推荐(0) 编辑
摘要:分析博客园网站的请求可以发现,博客园的分页请求为POST方式,和知乎的滚动加载类似。 不同的是请求响应返回的是HTML而不是JSON。 这样可以套用上一篇爬知乎的代码,需要修改的部分就是POST方法传的参数,直接用map,还有解析HTML的部分。 模拟POST请求 HTML内容的提取部分 因为HTM 阅读全文
posted @ 2017-04-24 15:21 灼眼的健 阅读(370) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示