论坛搜索网站技术概述 供参考
主要技术简介:
1.架构采用Asp.net Mvc+三层架构。
2.搜索功能使用lucene.net+盘古分词。
3.定时任务使用Quartz.net。( 用windows自带的太土了。)。
4.日志记录使用Log4net(非常好用)。
5.网站爬虫使用webclient(webrequest速度较慢)。
6.网页数据提取使用HtmlAgilityPack+正则表达式。
7.采用多线程(开启三个线程)分段对网站帖子进行索引,索引库未进行合并,搜索采用lucenue.net自带类库对三个索引库进行并行搜索。
网站其他功能陆续完善中,因网络带宽和主机配置限制(体验版阿里云单核多线程爬虫优势不明显),索引库数据较少,下一步可以做成分布式搜索(暂时不会)。
由于网站有广告嫌疑,就不公布了 。