随笔分类 -  网络爬虫速成指南

混乱的url编码||URL编码解码问题
摘要:转载自:http://www.ruanyifeng.com/blog/2010/02/url_encoding.html一。问题的由来。url就是网址,只要上网就一定会用到。一般来说,URL只能使用英文字母,阿拉伯数字和某些标点符号,不能使用其他文字和符号。比如,世界上有英文字母的网址,http:/... 阅读全文

posted @ 2015-06-15 11:32 雨渐渐 阅读(788) 评论(0) 推荐(0) 编辑

网络爬虫速成指南(二)网页解析(基于算法)
摘要:此类算法用来抽取文章的正文。这里介绍两种方式:将html加载未dom树,计算文字连接比将html作为文本,计算出行块分布性能比较:1000个网页: 行块分布函数:29秒 dom数文字连接比:66秒分析:加载为dom树会很费时间。 阅读全文

posted @ 2014-11-04 12:01 雨渐渐 阅读(299) 评论(0) 推荐(0) 编辑

定向爬虫小例子
摘要:demo下载 java 和 python# --*-- coding:utf-8 --*--import urllib2from lxml import etreeimport Queueimport timeimport osdef getHtml(url): request = urlli... 阅读全文

posted @ 2013-08-26 10:32 雨渐渐 阅读(782) 评论(0) 推荐(0) 编辑

网络爬虫速成指南(二)网页解析(基于模板)
摘要:网页解析技术:1 xpath教程2 正则表达式教程xpath是将html加载为DOM树解析,简单,易维护。通常我用正则作为辅助抽取,用xpath定位后,再从定位的数据中用正则抽取。xpath的类库:.net 方向主要用到HtmlAgilityPackjava 方向主要用到HtmlCleaner(得翻... 阅读全文

posted @ 2013-08-15 10:58 雨渐渐 阅读(733) 评论(0) 推荐(0) 编辑

网络爬虫速成指南(一)网页下载
摘要:注解:此处仅仅是介绍一些类库及常规使用,如果要详细了解Http协议推荐看下《Http权威指南》。net 方向 主要是用到HttpWebRequest下载内容:JAVA方向:主要是用到HttpClient下载内容示例代码:相关类库(httpclient-4.1.2 httpcore-4.1.4)示例代... 阅读全文

posted @ 2013-08-15 10:25 雨渐渐 阅读(643) 评论(0) 推荐(0) 编辑

网络爬虫速成指南 (三) 编码识别
摘要:问题的提出:采用上节的方法偶尔会下载到的HTML乱码,原因是上节的代码中进行了简易的编码识别,比如根据头信息,根据meta中的charset:。即使这样也会遇到下载到乱码的情况,原因是这两者提供的charset都可能不准确。解决方案:1 手动指定编码2 自动识别编码如果只采一个网站,自己指定下编码就... 阅读全文

posted @ 2013-08-13 14:35 雨渐渐 阅读(717) 评论(0) 推荐(0) 编辑

网络爬虫速成指南 (四) URL判重
摘要:如果采集量比较小:布隆过滤器详解原理如果采集量比较大:redis:主要是把URL转为md5,作为key来进行判重关于布隆过滤器器的参数说明,简单点说:private static BloomFilter bloomFilter = new BloomFilter(2X, X);这样用就可以了附:布隆... 阅读全文

posted @ 2012-12-14 15:39 雨渐渐 阅读(1007) 评论(0) 推荐(0) 编辑

导航