Welcome to EliteQing's Blog

摘要: 代码也可以从我的开源项目HtmlExtractor中获取。 当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网站:http://toutiao.com/ 我们可以使用Selenium来搞定这件事情。Seleni 阅读全文
posted @ 2016-06-04 17:51 EliteQing 阅读(2585) 评论(0) 推荐(1) 编辑
该文被密码保护。 阅读全文
posted @ 2016-06-04 17:37 EliteQing 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 以下仅仅是自己一些粗浅认识、欢迎补充指正、欢迎进群交流! 掌握一半便能够熟练的开发爬虫玩了。自己正在努力中... 一、技能列表 1、掌握java、尤其编程网络部分;李刚的java基础至少看了三遍以上; 2、熟悉html、js、 ajax、firedebug3、网页去重、找到网站特点4、分布式5、多线 阅读全文
posted @ 2016-06-04 17:17 EliteQing 阅读(1470) 评论(0) 推荐(0) 编辑
摘要: 参考地址 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是 阅读全文
posted @ 2016-06-04 16:46 EliteQing 阅读(2569) 评论(0) 推荐(0) 编辑
摘要: 参考地址:http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文
posted @ 2016-06-04 16:06 EliteQing 阅读(683) 评论(0) 推荐(0) 编辑
摘要: 模拟登陆部分实现: 参考地址 http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文
posted @ 2016-06-04 15:59 EliteQing 阅读(2145) 评论(0) 推荐(0) 编辑
摘要: 反爬虫策略,表面上看似乎跟WEB系统优化没有关系,经过分析,发现该策略是可以归到WEB性能优化的系列之中。 通过分析apache日志发现,某系统40%的带宽和服务器资源都消耗在爬虫上,如果除去10%-15%搜索引擎的爬虫,做好反爬虫策略,能节省20%-25%的资源,其实是变向优化了web系统。 一、 阅读全文
posted @ 2016-06-04 15:50 EliteQing 阅读(4930) 评论(1) 推荐(0) 编辑