需要整理研究的搜索引擎技术点(目录,无实际价值)

中文分词部分
1,断句与分块
2,字符类型设计与识别(中文,英文,数字,半角,全角).
3,从已断句子中分析提取字符类型相同的连续字串.
4,字典类设计
5,分词算法设计
  5.1,数字英文分词算法设计
  5.2,中文分词算法设计

分词应用部分
1,标签抽取
2,文本相关性与文本分类
 2.1,SVM算法


Web Spider开发
1,网页编码自动识别

2,Url去重算法
 2.1,Bloomfilter算法
 2.2,CRC算法

3,Spider的抓取流程与架构
 3.1,抓取页面
 3.2,页面落地
 3.3,通知队列
 3.4,分析提取有效信息
 3.5,失效信息清理

搜索引擎应用开发
1,中文相似词识别
  1.1,音似词识别
  1.2,形似词识别
  1.3,义似词识别

2,Lucene.net索引技术
  2.1,分词器ChineseAnalyzer设计
  2.2,索引优化技术
  2.3,索引分布存储
  2.4,索引压缩存储
 
3,Lucene.net搜索技术
  3.1,分类搜索
  3.2,排序搜索
  3.3,基于应用需求改进Lucene的默认排序算法
  3.4,搜索性能优化
    Singleton模式的Analyzer
    Cache下的Analyzer
    搜索结果的Cache(基于MemCache)

4,IFilter

posted @   kwklover  阅读(1820)  评论(1编辑  收藏  举报
编辑推荐:
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· 展开说说关于C#中ORM框架的用法!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
点击右上角即可分享
微信分享提示