PHP开源搜索引擎

 RiSearch PHP   

RiSearch PHP是一个高效,功能强大的搜索引擎,特别适用于中小型网站。RiSearch PHP非常快,它能够在不到1秒钟内搜索5000-10000个页面。RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索。Risearch是全文搜索引擎脚本,它把所有的关键词都编成一个文档索引除了配置文件里面的定义排除的关键词。 RiSearch使用经典的反向索引算法(与大型的搜索引擎相同),这就是为什么它会比其它搜索引擎快的原因。

 PhpDig   

PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。

 OpenWebSpider  

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

 Sphider   

Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小,易于安装和修改,已经有数千网站在使用它。

 Snoopy   

Snoopy是一个强大的网站内容采集器。提供获取网页内容,提交表单等功能。

 Sphinx   

Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。
Sphinx的特性:

  • 高速索引 (在新款CPU上,近10 MB/秒);
  • 高速搜索 (2-4G的文本量中平均查询速度不到0.1秒);
  • 高可用性 (单CPU上最大可支持100 GB的文本,100M文档);
  • 提供良好的相关性排名
  • 支持分布式搜索;
  • 提供文档摘要生成;
  • 提供从MySQL内部的插件式存储引擎上搜索
  • 支持布尔,短语, 和近义词查询;
  • 支持每个文档多个全文检索域(默认最大32个);
  • 支持每个文档多属性;
  • 支持断词;
  • 支持单字节编码与UTF-8编码;

 

 Yioop!   

Yioop! 是一个 PHP 的搜索引擎,可用于 Web 的一般用途搜索,或者可提供URL搜索以及各种文档的索引搜索,包括:HTML, PDF, DOC, PPT, RTF, RSS, XML, SVG, PNG, JPG, BMP, GIF, 以及 sitemaps.
Yioop.gif

 
posted @ 2013-05-30 19:00  jshaibozhong  阅读(3511)  评论(0编辑  收藏  举报