上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: TaskTracker 是Hadoop集群中运行于各个节点上的服务。他是JobTracker和Task之间的“通信桥梁”。一方面它从JobTracker端接受并执行各种命令:比如运行任务、提交任务、杀死任务。 另一方面它将各个任务的状态周期性心跳汇报给JobTracker。 其两个功能: 汇报心跳: 机器级别信息:节点健康状况、资源使用情况。 任务级别信息:任务... 阅读全文
posted @ 2013-08-04 11:59 @且听风吟@ 阅读(172) 评论(0) 推荐(0) 编辑
摘要: hostname="vm002"ip="192.168.10.201"usage() { echo "" exit 1}if [ $# -ge 2 ]then hostname=$1 ip=$2else usagefiusername="xxx"pwd="xxx"mem_size=16384 # 16Gcpu_count=4 # cpu countdisk_size=30720 # 10Gcmd="/usr/bin/vmbuilder kvm ubuntu --suite=lucid 阅读全文
posted @ 2013-08-02 08:54 @且听风吟@ 阅读(160) 评论(0) 推荐(0) 编辑
摘要: JobTracker 内部使用三层表示: JobInProgress: 跟踪和监控作业运行状态的对象。每个Job分成了多个Task。并为每个Task创建一个TaskInProgress跟踪和监控其运行状态。 而Task在运行过程中由于多种原因,比如软件Bug,硬件故障、推测机制等,每个Task可能尝试运行多次,直到运行成功或者超过尝试次数而失败。 每次的尝试为TaskAttemp。 作业使... 阅读全文
posted @ 2013-07-28 17:56 @且听风吟@ 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 经过前面的介绍,我们大致了解了站点压力控制对于爬虫的重要性。但是站点压力控制对于爬虫来说,是一个比较Open的话题。即到目前为止也没有一个很准确的压力控制方法。 主要的问题由于以下几点: 不同站点对于爬虫的压力允许程度不同。 即由于站点的规模不同、站点的服务器配置不同等。不同的站点能承受的压力是不同的。同时不同的站点对于爬虫的友好程度不同。有些站点允许爬虫爬去其数据,而有些站点不希望... 阅读全文
posted @ 2013-07-21 12:51 @且听风吟@ 阅读(698) 评论(0) 推荐(0) 编辑
摘要: 如题 2013-07-21 阅读全文
posted @ 2013-07-21 10:44 @且听风吟@ 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 虽然经常使用c++的stl,set也是经常使用的一个容器,但是发现对于set的理解还是比较浅显。今天使用时无意就撞入了一个坑里。 stl中set和map都是用红黑树实现的。set是key和value相同的结构。 代码如下: 1: #include 2: #include 3: #include 4: #... 阅读全文
posted @ 2013-07-21 08:45 @且听风吟@ 阅读(688) 评论(0) 推荐(0) 编辑
摘要: ptmalloc 是glibc的内存分配管理 tcmalloc 是google的内存分配管理模块 jemalloc 是BSD的提供的内存分配管理 三者的性能对比参考从网上的一个图如下: 自己测试了一下: 代码如下: 1: #include ... 阅读全文
posted @ 2013-07-19 09:23 @且听风吟@ 阅读(9994) 评论(2) 推荐(0) 编辑
摘要: 由于爬虫爬取的数据是为搜索引擎服务的。而搜索引擎是为互联网的数据做整合分类以便用户进行检索查看的。因此需要能感知互联网的数据的变化。即对于爬虫已经爬取的数据还需要定期去重新抓取,以检测页面是否变化。 页面的变化我们将其划分为两类: 一: 页面仍存在,但是页面的内容改变了。我们称之为内容更新。由于搜索引擎是基于爬虫爬取的网页的内容建立索引提供用户检索的。如果在爬虫爬去之后网页的内容改变了。则可能会产生用户检索一个query,搜索引擎基于旧的内容判断网页适合用户query高度相关并返回该页面的url给用户。而更新后的页面可能和用户的query是完全不相关的。这就会影响用户的体验。 另外更新后的内. 阅读全文
posted @ 2013-07-14 22:07 @且听风吟@ 阅读(1753) 评论(0) 推荐(0) 编辑
摘要: 爬虫选取策略主要解决抓取什么样的url,什么样的url不需要抓取。筛选主要关注的有两点。一是选择优质的url进行抓取。二是避免重复的抓取以节约抓取。下面介绍下相关的策略。 Pagerank Pagerank(http://baike.baidu.com/view/844648.htm?fromId=1518) 是Google的专有算法,是用来衡量特定网页相对于搜索引擎中的其他网页的重要... 阅读全文
posted @ 2013-07-14 20:52 @且听风吟@ 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 由于爬虫的抓取也是使用http协议交互。因此需要了解Http的各种返回码所代表的意义,才能判断爬虫的执行结果。返回码如下:100 Continue 初始的请求已经接受,客户应当继续发送请求的其余部分。(HTTP 1.1新)101 Switching Protocols 服务器将遵从客户的请求转换到另外一种协议(HTTP 1.1新)200 OK 一切正常,对GET和POST请求的应答文档跟在后面。201 Created 服务器已经创建了文档,Location头给出了它的URL。202 Accepted 已经接受请求,但处理尚未完成。203 Non-Authoritative Informatio 阅读全文
posted @ 2013-07-14 20:40 @且听风吟@ 阅读(3979) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页