其他_spider - 随笔分类 - myLittleGarden

【转】larbin中的url去重算法

摘要：1.bloom filter算法传说中，larbin使用bloom filter算法来进行url去重。那我们就先来了解下bloom filter算法好了。【以下转自：http://hi.baidu.com/fengfengchang/item/050b11390ff61fbd633affac】先解释一下什么是哈希函数。哈希函数简单来说就是一种映射，它可取值的范围（定义域）通常很大，但值域相对较小。哈希函数所作的工作就是将一个很大定义域内的值映射到一个相对较小的值域内。传统的哈希存储假设要哈希的集合为S，它有n个元素。传统的哈希方法是，将哈希区域组织成h（h > n）个格子的列表，每一个格阅读全文

posted @ 2013-09-09 18:06 myLittleGarden 阅读(1361) 评论(0) 推荐(0)

【转】larbin主要代码说明

摘要：转自：http://blog.csdn.net/s030702614/article/details/56839281. 主函数：int main (int argc, char *argv[]) { global glob(argc,argv) //初始化变量、队列 StartThread(startWebserver,NULL) //web服务 cron() //配置初始化 for( ; ;) { waitBandWidth(&old); //等待带宽 pol... 阅读全文

posted @ 2013-07-17 16:00 myLittleGarden 阅读(552) 评论(0) 推荐(0)

【转】larbin的设计原理

摘要：更多有关larbin的学习资料，可参见：http://blog.csdn.net/forestlight/article/details/6803122粗粗看了下，这个资料也很不错，对读代码很有帮助：http://blog.sina.com.cn/s/blog_6c663fa50101a628.html互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景，尤其是类似RSS的以XML为基础的结构化的数据越来越多，内容的组织方式越来越灵活，检索组织并呈现会有着越来越广泛的应用范围，同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫，信息的来源入口。一个高阅读全文

posted @ 2013-05-30 10:42 myLittleGarden 阅读(247) 评论(0) 推荐(0)

【转】python中getaddrinfo详解

摘要：1. getaddrinfo简介getaddrinfo可解析得到IPv6地址，而gethostbyname仅能得到IPv4地址。getaddrinfo在Python的socket包中，以下为python官网对getaddrinfo的解释：转自：http://docs.python.org/2/library/socket.htmlsocket.getaddrinfo(host, port[, family[, socktype[, proto[, flags]]]])Translate the host/port argument into a sequence of 5-tuples tha 阅读全文

posted @ 2013-05-28 16:51 myLittleGarden 阅读(14751) 评论(0) 推荐(0)

【转】python使用urllib2抓取网页

摘要：1、使用python的库urllib2，用到urlopen和Request方法。2、方法urlopen原形urllib2.urlopen(url[, data][, timeout])其中：url表示目标网页地址，可以是字符串，也可以是请求对象Requestdata表示post方式提交给目标服务器的参数timeout表示超时时间设置改方法返回一个类似文件的对象，有geturl()、info()、read()方法其中geturl()返回连接地址，info()返回网页信息。要获取网页内容可以使用read()方法，read也可以带参数，表示读取内容的大小（字节）。>>>import 阅读全文

posted @ 2013-05-25 18:49 myLittleGarden 阅读(839) 评论(0) 推荐(0)

【转】用python爬虫抓站的一些技巧总结

摘要：（转自：http://blog.163.com/code_fantasitic0/blog/static/187050004201262015616549/）学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。-这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东阅读全文

posted @ 2013-05-25 18:26 myLittleGarden 阅读(402) 评论(0) 推荐(0)

【转】larbin的代码实现逻辑概述

摘要：1. larbin简介(百度百科) larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人Sébastien Ailleret独立开发，用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。　latbin最初的设计也是依据设计简单但是高度可配置性的原则，因此我们可以看到，一个简单的larbin的爬虫可以每天获取500万的网页，实在是非常高效。　利用larbin，我们阅读全文

posted @ 2013-05-23 14:21 myLittleGarden 阅读(221) 评论(0) 推荐(0)

【转】用python写简单爬虫

摘要：来自http://www.poluoluo.com/jzxy/201210/183913.htmlPython提供了许多Module，通过这些Module，可以很简单的做一些工作。比如，要获得cloga这个词在百度搜索结果页中的排名结果（排名结果+URL），这就是一个很简单的爬虫需求。首先，要通过urllib2这个Module获得对应的HTML源码。import urllib2url='http://www.baidu.com/s?wd=cloga'content=urllib2.urlopen(url).read()通过上面这三句就可以将URL的源码存在content变量中，阅读全文

posted @ 2013-05-09 21:07 myLittleGarden 阅读(307) 评论(0) 推荐(0)

开源网络爬虫Larbin的安装及配置

摘要：大概用了两天的时间用来安装和配置Larbin。总体来说，关于使用和配置larbin的资料还是有很多的，但在安装和配置过程中，我还是遇到了点问题。不过，终于，问题被解决了，larbin能帮我爬东西了！先说下自己遇到的问题吧：1. configure时提示没有makedepend程序。因为自己使用的是centos，所用使用yum install 来安装makedepend程序。安装过程中centos提示没有makedepend包，可以去makedepend的官网上下载了一个makedepend的源代码包，或去这里下载rpm包，给安装到我的centos上了。此方法应该同样适用于redhat等发行版。阅读全文

posted @ 2013-05-07 15:24 myLittleGarden 阅读(1842) 评论(3) 推荐(0)

我的小花园

随笔分类 - 其他_spider