2016 年 6月 4 日随笔档案 - EliteQing

2016年6月4日

摘要：代码也可以从我的开源项目HtmlExtractor中获取。当我们在进行数据抓取的时候，如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页，那么我们该如何抓取呢？如类似今日头条这样的网站：http://toutiao.com/ 我们可以使用Selenium来搞定这件事情。Seleni 阅读全文

posted @ 2016-06-04 17:51 EliteQing 阅读(2585) 评论(0) 推荐(1) 编辑

爬虫的代理切换原理及其实现

该文被密码保护。阅读全文

posted @ 2016-06-04 17:37 EliteQing 阅读(2) 评论(0) 推荐(0) 编辑

Java爬虫工程师技能列表

摘要：以下仅仅是自己一些粗浅认识、欢迎补充指正、欢迎进群交流！掌握一半便能够熟练的开发爬虫玩了。自己正在努力中... 一、技能列表 1、掌握java、尤其编程网络部分；李刚的java基础至少看了三遍以上； 2、熟悉html、js、 ajax、firedebug3、网页去重、找到网站特点4、分布式5、多线阅读全文

posted @ 2016-06-04 17:17 EliteQing 阅读(1470) 评论(0) 推荐(0) 编辑

开源的49款Java 网络爬虫软件

摘要：参考地址搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月，是阅读全文

posted @ 2016-06-04 16:46 EliteQing 阅读(2569) 评论(0) 推荐(0) 编辑

腾讯微博模拟登陆+数据抓取(java实现)

摘要：参考地址：http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文

posted @ 2016-06-04 16:06 EliteQing 阅读(683) 评论(0) 推荐(0) 编辑

新浪微博模拟登陆+数据抓取(java实现)

摘要：模拟登陆部分实现：参考地址 http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文

posted @ 2016-06-04 15:59 EliteQing 阅读(2145) 评论(0) 推荐(0) 编辑

网站反爬虫策略

摘要：反爬虫策略，表面上看似乎跟WEB系统优化没有关系，经过分析，发现该策略是可以归到WEB性能优化的系列之中。通过分析apache日志发现，某系统40%的带宽和服务器资源都消耗在爬虫上，如果除去10%-15%搜索引擎的爬虫，做好反爬虫策略，能节省20%-25%的资源，其实是变向优化了web系统。一、阅读全文

posted @ 2016-06-04 15:50 EliteQing 阅读(4930) 评论(1) 推荐(0) 编辑

Welcome to EliteQing's Blog

公告