管理

随笔分类 -  【20】搜索引擎

摘要:后台代码:using System;using System.Data;using System.Configuration;using System.Web;using System.Web.Security;using System.Web.UI;using System.Web.UI.WebControls;using System.Web.UI.WebControls.WebParts;u... 阅读全文

posted @ 2009-08-18 13:51 lzhdim 阅读(659) 评论(1) 推荐(0) 编辑

摘要:开源搜索引擎工具包 1.Lucene Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lu... 阅读全文

posted @ 2009-07-19 15:38 lzhdim 阅读(1709) 评论(0) 推荐(0) 编辑

摘要:轻量级爬虫+全文检索解决方案项目——NukeLite svn: http://nukelite.googlecode.com/svn/trunk/ 项目地址:http://code.google.com/p/nukelite/ 开源协议:Apache License 2.0 ===========================================================... 阅读全文

posted @ 2008-11-29 21:34 lzhdim 阅读(826) 评论(0) 推荐(0) 编辑

摘要:C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题: ⑴ HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。 ⑵ 页面处理:需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘,或者进一步分析处理。 ⑶ 多线程:只有拥有多线程能力,蜘蛛程序才能真正做到... 阅读全文

posted @ 2008-11-27 17:57 lzhdim 阅读(792) 评论(1) 推荐(0) 编辑

Copyright © 2000-2022 Lzhdim Technology Software All Rights Reserved