论坛搜索网站技术概述 供参考

主要技术简介:

1.架构采用Asp.net Mvc+三层架构。

2.搜索功能使用lucene.net+盘古分词。

3.定时任务使用Quartz.net。( 用windows自带的太土了。)。

4.日志记录使用Log4net(非常好用)。

5.网站爬虫使用webclient(webrequest速度较慢)。

6.网页数据提取使用HtmlAgilityPack+正则表达式。

7.采用多线程(开启三个线程)分段对网站帖子进行索引,索引库未进行合并,搜索采用lucenue.net自带类库对三个索引库进行并行搜索。

网站其他功能陆续完善中,因网络带宽和主机配置限制(体验版阿里云单核多线程爬虫优势不明显),索引库数据较少,下一步可以做成分布式搜索(暂时不会)。

由于网站有广告嫌疑,就不公布了 。

 

posted @ 2013-01-05 13:23  net515  阅读(479)  评论(0编辑  收藏  举报