摘要: 1:搜索引擎按原理和工作方式可分为: A:爬虫式,主要用Socket实现,基于TCP/IP协议 B:目录索引式,以早期的yahoo为代表 C:元搜索引擎,即将多个搜索引擎的结果合并返回 2:按领域范围可分为: A:通用搜索引擎---针对全互联网全部网站和各种数据信息,信息全,领域广 B:垂直搜索引擎... 阅读全文
posted @ 2012-03-29 21:19 adhduy 阅读(749) 评论(0) 推荐(1) 编辑
摘要: 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 并非所有的信息发现任务都被视... 阅读全文
posted @ 2012-03-29 21:17 adhduy 阅读(748) 评论(0) 推荐(0) 编辑
摘要: ◆ 什么是融资?1,融思融资并不是仅仅的把投资者的钱拿过来,那仅仅是狭义上的融资而已。现在我们一群业内的朋友在这里聚会,交流彼此的思想,也是一种广义上的“融资”。把在场的各位的有价值的思想融合到一起,创造出新的好的点子来创造更大的价值,这才是融资的核心。2,融事在场的各位朋友有北京IT圈各大网站的运... 阅读全文
posted @ 2012-03-29 21:15 adhduy 阅读(345) 评论(0) 推荐(0) 编辑
摘要: http://www.cnlabs.net/tools/Search_Engines_Submit/ http://s.55.la/ http://www.onexin.net/addurl.php http://www.freewebsubmission.com/(英文) 阅读全文
posted @ 2012-03-29 21:10 adhduy 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 什么是元搜索?元搜索是搜索引擎之后或之上的搜索引擎,元搜索可以同时查询多个搜索引擎的站点。元搜索可以“查一个元搜索引擎就相当于查多个独立搜索引擎,可以收到事半功倍的效果。”比比猫就是这样一个元搜索!通过Bbmao的元搜索功能,用户稍一点击,就能获得精选自五大搜索引擎Google、雅虎、百度、iAsk... 阅读全文
posted @ 2012-03-29 21:05 adhduy 阅读(506) 评论(1) 推荐(0) 编辑
摘要: 搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。随着网络技术的飞速发展,搜索技术的日臻完善,中外搜索引擎已广为人们熟知和使用。任何搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。一种搜索引擎不可能满足所有人或一个人所有的检索需求。在某些情况下,如文献普查... 阅读全文
posted @ 2012-03-29 21:02 adhduy 阅读(1121) 评论(1) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2012-03-29 20:53 adhduy 阅读(1) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2012-03-29 20:49 adhduy 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方 阅读全文
posted @ 2012-03-29 20:47 adhduy 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 元搜索引擎(Metasearch Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of searce engines)”。在这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(source Engine),或“搜索资源”(searcing resources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searching technique),元搜索技术是元搜索引擎的核心。元搜索引擎分为并行处理式和串行 阅读全文
posted @ 2012-03-29 20:41 adhduy 阅读(2088) 评论(0) 推荐(0) 编辑
摘要: 开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。搜索引擎的工作流程主要分为三步:从互联网抓取网页→创建抓取网页的索引库→从索引库中进行搜索。首先需要一个能访问网络的爬虫器程序,依据URL之间的关联性自动爬行整个互联网,并对爬行过的网页进行抓取收集。当网页被收集回来后,采用索引分析程序进行网页信息的分析,依据一定的相关度算法 阅读全文
posted @ 2012-03-29 20:30 adhduy 阅读(291) 评论(0) 推荐(0) 编辑