搜索引擎

导读:
  【概念】
  搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
  从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。
   互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。 用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
  【英文简述】
   A search engine is an information retrieval system designed to help find information stored on a computer system, such as on the World Wide Web, inside a corporate or proprietary network, or in a personal computer. The search engine allows one to ask for content meeting specific criteria (typically those containing a given word or phrase) and retrieves a list of items that match those criteria. This list is often sorted with respect to some measure of relevance of the results. Search engines use regularly updated indexes to operate quickly and efficiently.
  Without further qualification, search engine usually refers to a Web search engine, which searches for information on the public Web. Other kinds of search engine are enterprise search engines, which search on intranets, personal search engines, and mobile search engines. Different selection and relevance criteria may apply in different environments, or for different uses.
  Some search engines also mine data available in newsgroups, databases, or open directories. Unlike Web directories, which are maintained by human editors, search engines operate algorithmically or are a mixture of algorithmic and human input.
  【工作原理】
  1、抓取网页
  每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
  2、处理网页
  搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。
  3、提供检索服务
  用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
  全文搜索引擎
   在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间 (比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息 和网址加入自己的数据库。
  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派 出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜 索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
  当用户以关键词查找信息时,搜 索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等 ——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
  目录索引
  与全文搜索引擎相比,目录索引有许多不同之处。
  首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
  其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。
  此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
   最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息, 而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
   目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回 的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序 决定(也有例外)。
  目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用 Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国 内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
  【搜索引擎的发展史】
   1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。 用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和 搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
  搜索引擎的起源:
   所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但 它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以 下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
  发 展(1):
  世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL) 。
  搜索引擎一般由以下三部分组成:
  爬行器(机器人、蜘蛛)
  索引生成器
  查询检索器
  发 展(2):
   Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们 还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile)
  发 展(3):
  1994年4月,斯坦福大学的两名博士生,美籍华人杨 致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不 能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务)
  Yahoo!--几乎成为20世纪90年代的因特网的代名词。
  发 展(4):
  1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。
  第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
  发 展(5):
  智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
   例:(1)查询"计算机",与"电脑"相关的信息也能检索出来;(2)可以进一步缩小查询范围至"微机"、"服务器"或扩大查询至"信息技术"或查询相 关的"电子技术"、"软件"、"计算机应用"等范畴(百度)(3)还包括歧义信息和检索处理,如"苹果",究竟是指水果还是电脑品牌,"华人"与"中华人 民共和国"的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息 。(搜狗)
  发 展(6):
  个性化定制,my yahoo http://my.yahoo.com
  发 展(7):
  网格技术(great global grid):由于没有统一的信息组织标准对网络信息资源进行加工处理,难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用,形成信息孤岛。网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。
  美国全球信息网格(Global Information Grid)
   Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬 来爬去,因此,搜索引擎的Robot程序被称为spider程序。
  1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
   1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能 真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和 Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。
  1994年初,华盛顿大学 (University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。 WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取 正文的前100个字。
  1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一 个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
  1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
   1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果, 集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
  1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引 擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索 Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有 趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮 助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引 擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
   1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页 以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
  1997年8 月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
   1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。 Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性 大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国 家起的名字。
  Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了 自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利 用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。 (2003年2月25日,Fast的互联网搜索部门被Overture收购)。
  1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
   Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新 浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。
   2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度 (Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引 擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度 快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳 斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
  2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。
  2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。
  【商务模式】
  在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。
   现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早 是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专 利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004 年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。
   AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。 Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同 时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。
  【组成】
  搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。
  ①搜索器:其功能是在互联网中漫游,发现和搜集信息;
  ②索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;
  ③检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;
  ④用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。
  【分类】
  1.全文索引
  全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
   根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人” (Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据 库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
  2.目录索引
  目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。
  3.元搜索引擎
   元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、 Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规 则将结果重新排列组合,如Vivisimo。
  其他非主流搜索引擎形式
  (1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
  (2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
  (3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
  【著名搜索引擎网址】
  1、百度 http://www.baidu.com/
  2、雅虎 http://search.cn.yahoo.com/
  3、Google http://www.google.cn/
  4、网易搜索引擎 http://search.163.com/
  5、北京大学天网中英文搜索引擎 http://e.pku.edu.cn/
  6、搜狐搜索引擎 http://www.sogou.com/dir/
  7、新浪网 http://cha.iask.com/
  8、TOM搜索引擎 http://i.tom.com/
  9、21CN.COM http://search.21cn.com/
  10、飞客BT搜索引擎 http://bt.fkee.com/
  11、Souyo http://www.souyo.com/
  12、雅虎易搜 http://www.yisou.com/
  13、麦布搜索引擎 http://www.mybu.net/
  14、中华搜索 sou.china.com http://sou.china.com/
  15、酷亿 http://www.ku68.com 16、搜搜 http://www.soso.com/ 17、络龙医药化工搜索 http://www.lolong.com/
  【国外著名英文搜索引擎大全及分类】
  1、Google
  http://www.google.com
  2、Yahoo
  http://www.yahoo.com
  3、Live
  http://www.live.com
  4、SearchMash
  http://www.searchmash.com/
  5、ASK
  http://www.ask.com
  6、Search
  http://www.search.com
  7、Ask Jeeves
  http://www.askjeeves.com
  8、AllTheWeb.com
  http://www.alltheweb.com
  9、AOL Search
  http://aolsearch.aol.com(internal)
  http://search.aol.com/(external)
  10、HotBot
  http://www.hotbot.com
  11、MSN Search
  http://search.msn.com
  12、Teoma
  http://www.teoma.com
  13、AltaVista
  http://www.altavista.com
  14、Gigablast
  http://www.gigablast.com
  15、LookSmart
  http://www.looksmart.com
  16、Lycos
  http://www.lycos.com
  17、Open Directory
  http://dmoz.org/
  18、Netscape Search
  http://search.netscape.com
  主要新闻搜索引擎
  
  1、Google News
  http://news.google.com/
  2、Yahoo News
  http://news.yahoo.com/
  3、AllTheWeb News
  http://www.alltheweb.com/?cat=news
  4、AltaVista News
  http://news.altavista.com/
  5、Daypop
  http://www.daypop.com/
  其它新闻搜索引擎
  
  1、Ananova
  http://www.ananova.com/
  2、Columbia Newsblaster
  http://www1.cs.columbia.edu/nlp/newsblaster/
  3、Net2one
  http://www.net2one.com/
  4、Newsknife.com
  http://www.newsknife.com
  5、NewsNow
  http://www.newsnow.co.uk/
  6、NewsTrawler
  http://www.newstrawler.com/
  7、NewsTrove.com
  http://www.newstrove.com/
  8、Rocketinfo
  http://www.rocketnews.com
  9、World News Network
  http://www.wn.com/
  10、DailyEarth.com
  http://dailyearth.com/
  11、HeadlineSpot
  http://www.headlinespot.com/
  12、Kiosken
  http://www.esperanto.se/kiosk/engindex.html
  Blog 搜索引擎
  
  1、Blogdex
  http://blogdex.media.mit.edu/
  2、Blogdigger
  http://www.blogdigger.com/
  3、Blogging Headline News
  http://blogging-news.info
  4、BlogStreet
  http://www.blogstreet.com/
  5、CRAYON (CReAte Your Own Newspaper)
  http://www.crayon.net/
  6、Fagan Finder: Weblogs, Journals, &RSS
  http://www.faganfinder.com/blogs/
  7、Feedster
  http://www.feedster.com/
  8、NewsIsFree
  http://www.newsisfree.com
  9、Syndic8.com
  http://www.syndic8.com/
  10、Technorati
  http://www.technorati.com/
  杂志、期刊搜索引擎
  
  1、eLibrary
  http://ask.elibrary.com/
  2、FindArticles.com
  http://www.findarticles.com/
  3、MagPortal
  http://www.magportal.com/
  
  主要购物搜索引擎
  
  1、BizRate
  http://www.bizrate.com/
  2、DealTime
  http://www.dealtime.com
  3、Froogle
  http://www.froogle.com
  4、Kelkoo
  http://www.kelkoo.co.uk/
  5、MSN Shopping
  http://shopping.msn.com/
  6、mySimon
  http://www.mysimon.com/
  7、NexTag
  http://www.nextag.com/
  8、PriceGrabber.com
  http://www.pricegrabber.com/
  9、Yahoo Shopping
  http://shopping.yahoo.com/
  其它购物搜索引擎
  
  1、Buyer’s Index
  http://www.buyersindex.com/
  2、Dulance
  http://www.dulance.com/
  3、ePublicEye.com
  http://www.epubliceye.com
  4、PriceScan
  http://www.pricescan.com/
  专业搜索引擎
  
  1、AddAll
  http://www.addall.com/
  2、CatalogCity.com
  http://www.catalogcity.com/
  3、Google Catalogs
  http://catalogs.google.com/
  4、Images/Audio/Video
  
  5、AllTheWeb
  http://www.alltheweb.com/
  6、AltaVista
  http://www.altavista.com/
  7、Ditto (images only)
  http://www.ditto.com/
  8、Google Images (images only)
  http://images.google.com
  9、Kazaa Media Desktop (MP3 only)
  http://www.kazaa.com/
  10、Lycos Pictures and Sounds
  http://multimedia.lycos.com/
  11、MIDI Explorer (MIDI sound files only)
  http://www.musicrobot.com/
  12、The Music Finder (artists &songs, not files)
  http://www.music-finder.net/
  13、Picsearch (images only)
  http://www.picsearch.com/
  14、Singingfish (audio/video only)
  http://www.singingfish.com/
  Radio &TV Programs
  
  15、SpeechBot
  http://speechbot.research.compaq.com/
  16、PublicRadioFan.Com
  http://www.publicradiofan.com/
  17、Radio-Locator
  http://www.radio-locator.com/
  18、TheFeedRoom
  http://www.feedroom.com/
  儿童搜索引擎
  
  Ask Jeeves For Kids
  http://www.ajkids.com/
  Ask Jeeves For Kids
  http://www.ajkids.com/
  KidsClick!
  http://www.kidsclick.org/
  Yahooligans
  http://www.yahooligans.com/
  其它儿童搜索引擎及目录
  1、Awesome Library
  http://www.awesomelibrary.org/
  2、Diddabdoo
  http://www.dibdabdoo.com/
  3、Education World
  http://www.education-world.com/
  4、Fact Monster
  http://www.factmonster.com/
  5、Family Source
  http://www.family-source.com/
  6、Kids Search Tools
  http://www.rcls.org/ksearch.htm
  7、SearchEdu.com
  http://www.searchedu.com/
  8、Teach-nology.com
  http://www.teach-nology.com/
  
  9、TekMom’s Search Tools for Students
  http://www.tekmom.com/search/
  主要搜索工具栏
  Ask Jeeves For Kids
  http://www.ajkids.com/
  Ask Jeeves For Kids
  http://www.ajkids.com/
  KidsClick!
  http://www.kidsclick.org/
  Yahooligans
  http://www.yahooligans.com/
  其它儿童搜索引擎及目录
  
  Awesome Library
  http://www.awesomelibrary.org/
  Diddabdoo
  http://www.dibdabdoo.com/
  Education World
  http://www.education-world.com/
  Fact Monster
  http://www.factmonster.com/
  Family Source
  http://www.family-source.com/
  Kids Search Tools
  http://www.rcls.org/ksearch.htm
  SearchEdu.com
  http://www.searchedu.com/
  
  Teach-nology.com
  http://www.teach-nology.com/
  
  TekMom’s Search Tools for Students
  http://www.tekmom.com/search/
  【搜索技巧】
  在类别中搜索
   许多搜索引擎(如Yahoo!)都显示类别,如计算机和Internet、商业和经济。如果您单击其中一个类别,然后再使用搜索引擎,您将可以选择搜索 整个Internet还是搜索当前类别。显然,在一个特定类别下进行搜索所耗费的时间较少,而且能够避免大量无关的Web站点。
  当然,您或许还想搜索整个Internet,以搜索特定类别之外的信息。
  使用具体的关键字
   如果想要搜索以鸟为主题的Web站点,您可以在搜索引擎中输入关键字“bird”。但是,搜索引擎会因此返回大量无关信息,如谈论羽毛球的“小鸟球 (birdie)”或烹饪game birds不同方法的Web站点。为了避免这种问题的出现,请使用更为具体的关键字,如“ornithology”(鸟类学,动物学的一个分支)。您所提 供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小。
  使用多个关键字
  您还可以 通过使用多个关键字来缩小搜索范围。例如,如果想要搜索有关佛罗里达州迈阿密市的信息,则输入两个关键字“Miami”和“Florida”。如果只输入 其中一个关键字,搜索引擎就会返回诸如Miami Dolphins足球队或Florida Marlins棒球队的无关信息。一般而言,您提供的关键字越多,搜索引擎返回的结果越精确。
  使用布尔运算符
  许多搜索引擎都允许在搜索中使用两个不同的布尔运算符:AND和OR。如果您想搜索所有同时包含单词“hot”和“dog”的Web站点,只需要在搜索引擎中输入如下关键字:
  hot AND dog
  搜索将返回以热狗(hot dog)为主题的Web站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hot day)让一只狗(dog)凉快下来的Web站点。
  如果想要搜索所有包含单词“hot”或单词“dog”的Web站点,您只需要输入下面的关键字:
  hot OR dog
  搜索会返回与这两个单词有关的Web站点,这些Web站点的主题可能是热狗(hot dog)、狗,也可能是不同的空调在热天(hot day)使您凉爽、辣酱(hot chilli sauces)或狗粮等。
  留意搜索引擎返回的结果
  搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置。好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做。
  此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本。这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息。
  正如读报纸、听收音机或看电视新闻一样,请留意您所获得的信息的来源。搜索引擎能够帮您找到信息,但无法验证信息的可靠性。因为任何人都可以在网上发布信息。
  【搜索引擎与网络推广】
  1、头部内容与网站推广的关系。
   在一个网页中,之间,就是一个页面的头部信息部分,Google的蜘蛛优先抓取网页时的头部文件信息的描述,和关键字描述,百度的蜘蛛的喜欢程度不如 Google。如何优化这部分的内容信息。关键字这个代码放到头部中去,文字长度一般介于150个字符左右,网站描述也放到头部中去,长度可以多关键字约 大一些,约300个字符左右。页面标题最好能反应当前的内容描述。优化这一部分内容,可以提高网站在Google里的收录。
  2、页面内容与网站推广的关系。
   页面内容是指访问网站是生成的页面内容,通常是指生成的html代码文件时之间的内容。百度的蜘蛛更喜欢这里的东西,而且这里面除去Html代码标记后 的前300个字符通常显示为搜索引擎的检索时的描述内容,也是用户检查网站内容的关键之一。优化这一部分内容,可以提高网站在百度里的收录
  3、页面超级链接与网站推广之间的关系(最重要的)。
   页面超级级链接,就是网络蜘蛛游历整个网站的线索,W3C标准里,就有一条页面超级链接失效到一定程序,就不能通过W3C认证;同样,失效的超级链接也 是网络蜘蛛对网站游历时,游历的一种标准。超级链接有两种情况,A同域下的链接,Google的蜘蛛比较喜欢这种链接方式。B不同域的链接,百度比较喜欢 这种方式。要想优化这部分内容Google采用Sitemap.xml文件提交,百度最好采用一个站长地图文件链接到主页。这里介绍一个免费工具(在线 sitemap生成工具,http://huluwa.cn/sitemap.aspx,以生成google所需的Sitemap.xml文件和百度所需 的Html文件。不过需要安装Java虚拟机。生成这两个文件后都到到网站根目录,Sitemap.xml到Google去提 交,Sitemap.html在网站的页面上做一链接就可以了。)
  4、蜘蛛的工作周期与网站的推广的关系。
  百度的工作周期相对来说比google短一些,百度大约在10左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。
  5、搜索引擎的自定义排名。
  这是搜索引擎公司益利的主要手段,搜索引擎公司由于可以自定义排名,和可以过滤一些关键字、词和网站,这样可以造成网站无法收录到搜索引擎的数据库中。如果长期内,你的网站在搜索引擎中没有什么变化,可以考虑调整你网站里的字、词和网站里的内容。
  【搜索引擎的技术发展趋势】
  搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面:
  一、提高搜索引擎对用户检索提问的理解
   为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可 以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在 于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结 果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。
  二、对检索结果进行处理
  1)基于链接评价的搜索引擎
   基于链接评价的搜索引擎的优秀代表是Googel(http://www.googel.com),它独创的“链接评价体系”是基于这样一种认识,一个 网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于 互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。
  2)基于访问大众性的搜索引擎
   基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的 时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着 同样的缺点。
  3)去掉检索结果中附加的多余信息
  有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。
  三、确定搜索引擎信息搜集范围,提高搜索引擎的针对性
  1)垂直主题搜索引擎
   网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主 题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天 气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。
  2)非www信息的搜索
  提供FTP等类信息的检索
  3)多媒体搜索引擎
  多媒体检索主要包括声音、图像的检索。
  四、将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果
  1)纯净搜索引擎
  这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。
  2)元搜索引擎
   现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资 源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。
  元搜 索引擎(metasearch enging)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎 之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索 引擎有metacrawler、dopile、ixquick等。
  3)集成搜索引擎
  集成 搜索引擎( All-in-One Search Page),亦称为“多引擎同步检索系统 ”(如百度http://www.baidu.com)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引 擎同时搜索,用起来相当方便.
  集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。
  4)垂直搜索引擎
   垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求 提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体 和深入。

posted @ 2012-04-07 20:24  积淀  阅读(1602)  评论(0编辑  收藏  举报