随笔分类 - 网络爬虫
摘要:HTTPClient官网:http://hc.apache.org/httpcomponents-client-4.5.x/quickstart.html 问题一:明明浏览器请求有数据,可使用HTTPClient输出却为空 原因1:访问该网站可能需要证书 证书解决办法:http://www.cnbl
阅读全文
摘要:WebMagic官网:http://webmagic.io/ 注意: 1、在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new myPageProcessor()).start()爬虫启动后,console并不会输出 webM
阅读全文
摘要:JSOUP中文文档:http://www.open-open.com/jsoup/推荐博客:http://www.cnblogs.com/jycboy/p/jsoupdoc.html 从一个URL加载一个Document 使用DOM方法来遍历一个文档 查找元素 元素数据 使用选择器语法来查找元素 如
阅读全文
摘要:要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或
阅读全文
摘要:Java在请求某些不受信任的https网站时会报:PKIX path building failed 解决方法一:使用keytool手动导入证书,为JRE环境导入信任证书 参考:http://www.cnblogs.com/wanghaixing/p/5630070.html 方法二:使用代码下载证
阅读全文