2013 年 3月 18 日随笔档案 - qianye0905

2013年3月18日

摘要：转载 http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程一个通用的网络爬虫的框架如图所示：网络爬虫的基本工作流程如下： 1.首先选取一部分精心挑选的种子URL； 2.将这些URL放入待抓取URL队列； 3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页阅读全文

posted @ 2013-03-18 23:48 qianye0905 阅读(240) 评论(0) 推荐(0) 编辑

BloomFilter——大规模数据处理利器

摘要：转载：http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一.实例为了说明Bloom Filter存在的重要意义，举一个实例：假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知道蜘蛛已经访问过那些URL。给一个URL，怎样知道蜘蛛是否已经访问过呢？稍微想想，就.. 阅读全文

posted @ 2013-03-18 22:56 qianye0905 阅读(245) 评论(0) 推荐(0) 编辑

atoi函数的实现

摘要：写atoi函数的时候需要注意一下几点1. 字符串前的空白2. 字符串所表示数值的正负号3. 结束条件，遇到非数字或者字符'\0'结束4. 考虑溢出，分别与int值所能表示的最大(0x7fffffff)和最小值(0x8000000)进行比较5. 考虑异常输入情况下，用全局变量valid来标识，对于"+/-" "0" "+abc"需要进行区分 1 #define INT_MAX ((int)0x7FFFFFFF) 2 #define INT_MIN ((int)0x80000000) 3 //#define INT_MAX 阅读全文

posted @ 2013-03-18 21:57 qianye0905 阅读(9176) 评论(2) 推荐(0) 编辑

队列中取最大值操作

摘要：编程之美3.7队列的常用操作只有两个入队列EnQueue(v)和出队列DeQueue(v)，这里需要增加一个取最大值的操作，而且使时间复杂度尽可能的小考虑到之前遇到过的，为栈设计取最大值问题，只需要用另外一个栈来记录当前栈中的最大值，当入栈时，如果入栈元素大于栈中最大元素则更新最大值，出栈时，如果出栈元素等于栈中最大元素则同时将记录最值的栈出栈而队列想要实现此功能则要复杂的多，想到可以借用栈来实现队列的最值问题。用两个栈A,B来模拟队列的出队和入队操作，入队列时，将元素直接放入A栈中，出队时，首先判断栈B是否为空，如果为空则将A栈中的元素依次出栈在压入B栈中，然后再从B栈中去掉一个元素分别用一阅读全文

posted @ 2013-03-18 21:18 qianye0905 阅读(1075) 评论(0) 推荐(0) 编辑