网络爬虫速成指南 - 随笔分类 - 雨渐渐

混乱的url编码||URL编码解码问题

摘要：转载自：http://www.ruanyifeng.com/blog/2010/02/url_encoding.html一。问题的由来。url就是网址，只要上网就一定会用到。一般来说，URL只能使用英文字母，阿拉伯数字和某些标点符号，不能使用其他文字和符号。比如，世界上有英文字母的网址，http:/... 阅读全文

posted @ 2015-06-15 11:32 雨渐渐阅读(788) 评论(0) 推荐(0) 编辑

网络爬虫速成指南（二）网页解析(基于算法)

摘要：此类算法用来抽取文章的正文。这里介绍两种方式：将html加载未dom树，计算文字连接比将html作为文本，计算出行块分布性能比较：1000个网页：行块分布函数：29秒 dom数文字连接比：66秒分析：加载为dom树会很费时间。阅读全文

posted @ 2014-11-04 12:01 雨渐渐阅读(299) 评论(0) 推荐(0) 编辑

定向爬虫小例子

摘要：demo下载 java 和 python# --*-- coding:utf-8 --*--import urllib2from lxml import etreeimport Queueimport timeimport osdef getHtml(url): request = urlli... 阅读全文

posted @ 2013-08-26 10:32 雨渐渐阅读(782) 评论(0) 推荐(0) 编辑

网络爬虫速成指南（二）网页解析(基于模板)

摘要：网页解析技术：1 xpath教程2 正则表达式教程xpath是将html加载为DOM树解析，简单，易维护。通常我用正则作为辅助抽取，用xpath定位后，再从定位的数据中用正则抽取。xpath的类库：.net 方向主要用到HtmlAgilityPackjava 方向主要用到HtmlCleaner(得翻... 阅读全文

posted @ 2013-08-15 10:58 雨渐渐阅读(733) 评论(0) 推荐(0) 编辑

网络爬虫速成指南（一）网页下载

摘要：注解：此处仅仅是介绍一些类库及常规使用，如果要详细了解Http协议推荐看下《Http权威指南》。net 方向主要是用到HttpWebRequest下载内容:JAVA方向：主要是用到HttpClient下载内容示例代码：相关类库（httpclient-4.1.2 httpcore-4.1.4）示例代... 阅读全文

posted @ 2013-08-15 10:25 雨渐渐阅读(643) 评论(0) 推荐(0) 编辑

网络爬虫速成指南（三）编码识别

摘要：问题的提出：采用上节的方法偶尔会下载到的HTML乱码，原因是上节的代码中进行了简易的编码识别，比如根据头信息，根据meta中的charset：。即使这样也会遇到下载到乱码的情况，原因是这两者提供的charset都可能不准确。解决方案：1 手动指定编码2 自动识别编码如果只采一个网站，自己指定下编码就... 阅读全文

posted @ 2013-08-13 14:35 雨渐渐阅读(717) 评论(0) 推荐(0) 编辑

网络爬虫速成指南（四） URL判重

摘要：如果采集量比较小：布隆过滤器详解原理如果采集量比较大：redis：主要是把URL转为md5，作为key来进行判重关于布隆过滤器器的参数说明，简单点说：private static BloomFilter bloomFilter = new BloomFilter(2X, X);这样用就可以了附：布隆... 阅读全文

posted @ 2012-12-14 15:39 雨渐渐阅读(1007) 评论(0) 推荐(0) 编辑

雨渐渐

随笔分类 - 网络爬虫速成指南