摘要: 阅读全文
posted @ 2012-10-27 00:13 76er 阅读(304) 评论(3) 推荐(0) 编辑
摘要: 当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 ----要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。 ----搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给 网络蜘蛛用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所... 阅读全文
posted @ 2012-10-26 01:04 76er 阅读(743) 评论(45) 推荐(0) 编辑
摘要: 我们大致把爬虫分为两类:一类是用于搜索引擎的搜索爬虫,抓取目标是整个互联网;一类则是各种定向爬虫,抓取目标是所有网站中的一个特定子集,甚至就是某一个网站。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还. 阅读全文
posted @ 2012-10-25 20:21 76er 阅读(5017) 评论(39) 推荐(0) 编辑
摘要: 爬虫技术:基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。爬虫策略:网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入问题,目前常见的是广度优先和最佳优先方法。在编写爬虫的时候可以考虑使用广度优先和最佳优先的方法。 广度优先搜索策 略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方 法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关. 阅读全文
posted @ 2012-10-25 19:52 76er 阅读(2192) 评论(11) 推荐(0) 编辑
摘要: 功能Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以 更加智能地抓取网站。介绍网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站 阅读全文
posted @ 2012-10-25 18:10 76er 阅读(547) 评论(17) 推荐(0) 编辑
摘要: 定向爬虫是网络爬虫的一种。 定向爬虫 定向爬虫可以精准的获取目标站点信息。 定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。优势: 基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。 劣势: 目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。 也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板,比如针对BBS就要构建与BBS相同的网页模板,让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此... 阅读全文
posted @ 2012-10-25 13:19 76er 阅读(1397) 评论(16) 推荐(0) 编辑
摘要: 目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表:下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较:Nutch开发语言:Javahttp://lucene.apache.org/nutch/简介:Apache的子项目之一,属于Lucene项目下的子项目。Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己 阅读全文
posted @ 2012-10-24 23:27 76er 阅读(58306) 评论(8) 推荐(3) 编辑
摘要: 我的同组人是潘学依然是之前的观点,我认为结对编程会在项目正式开始编写之前花费更多的时间。在开始编程之前,我们都有等着对方开始做,我再开始的想法,于是把这个 编程项目拖了很久才开始。但真正开始之后,我们由于相互过问对方的进度,反而感受到了压力,逼着自己更快地完成自己的任务,使自己再被问到时候可以不回尴 尬,最好还能有一些超额完成来让自己小小的自豪一下。我觉得我的优点在于我有耐心,可以灵活运用找到的资源,学习能力强。但我的缺点在于我编程能力较弱。我的队友潘学的优点在于他做事积极,对交给他的任务有责任心,可以细心地完成任务,缺点在于比较随性,有时不会按照计划时间完成任务。信息隐蔽指在设计和确定模块时 阅读全文
posted @ 2012-10-22 00:25 76er 阅读(498) 评论(23) 推荐(1) 编辑
摘要: 软工的第二次作业是结队编程,具体任务是在一个已经完成简单的电梯调度的框架基础上改进电梯调度的部分以提高程序效率。 原程序是用c#写的,并且有着十分明显的面向对象的风格,每一部分都分的十分详细,每一小块的功能都十分简单,便于查找、修改、拓展其中的内 容。但这对我来说是一个不小的挑战,因为尽管我在之前已经用java及c++写过一些程序,但是其风格仍然是c语言风格,最多就是披着面向对象外皮的面向 过程的程序,将面向对象中的类及其方法当过c语言中的函数来使用。不得不说这是一种十分早糟糕的做法,这让我在学习面向对象的语言的时候并没有很好的理解 面向过程的思想,尽管知道什么叫类,什么叫接口,但根本没... 阅读全文
posted @ 2012-10-20 21:47 76er 阅读(430) 评论(13) 推荐(2) 编辑
摘要: 李栋我是李栋,很高兴能够和这么多才华横溢的组员一起组成一个团队共同进步,一起克服困难。我争取发挥自己的全部能力与余热去努力完成项目的要求,期望不仅能在这次团队作业中学到知识,更能够与其他组员增进交流。付博扬我是10061153付博扬,很荣幸成为76er的一员,不得不很惭愧的说我无论对于C++还是C#都是完全的菜鸟级,但我也会努力的,即使编程方面不如其他的“大腿”,但我也绝不会成为后腿,其他方面也会给出自己的想法,促进76er这一大家庭团结和睦,任务进展顺利。仰望ing~梁鸿我叫梁鸿,是100617班的一名学生,喜欢打篮球、乒乓球,在软件工程的团队分组中加入了“76er”这个团队,在我们团队之前 阅读全文
posted @ 2012-10-16 22:23 76er 阅读(6113) 评论(4) 推荐(2) 编辑