随笔分类 -  网络爬虫

摘要:HTTPClient官网:http://hc.apache.org/httpcomponents-client-4.5.x/quickstart.html 问题一:明明浏览器请求有数据,可使用HTTPClient输出却为空 原因1:访问该网站可能需要证书 证书解决办法:http://www.cnbl 阅读全文
posted @ 2018-04-18 12:23 逐梦客! 阅读(909) 评论(0) 推荐(0) 编辑
摘要:WebMagic官网:http://webmagic.io/ 注意: 1、在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new myPageProcessor()).start()爬虫启动后,console并不会输出 webM 阅读全文
posted @ 2018-04-17 17:38 逐梦客! 阅读(367) 评论(0) 推荐(0) 编辑
摘要:JSOUP中文文档:http://www.open-open.com/jsoup/推荐博客:http://www.cnblogs.com/jycboy/p/jsoupdoc.html 从一个URL加载一个Document 使用DOM方法来遍历一个文档 查找元素 元素数据 使用选择器语法来查找元素 如 阅读全文
posted @ 2018-04-16 19:50 逐梦客! 阅读(270) 评论(0) 推荐(0) 编辑
摘要:要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或 阅读全文
posted @ 2018-04-15 13:35 逐梦客! 阅读(38559) 评论(0) 推荐(0) 编辑
摘要:Java在请求某些不受信任的https网站时会报:PKIX path building failed 解决方法一:使用keytool手动导入证书,为JRE环境导入信任证书 参考:http://www.cnblogs.com/wanghaixing/p/5630070.html 方法二:使用代码下载证 阅读全文
posted @ 2018-04-15 12:24 逐梦客! 阅读(19805) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示