Atitit 搜索工程师的知识点体系总结 目录 1.1. 理论类 索引 与查询 1 1.2. 类库类 1 1.3. 关联知识类 1 1.4. 其他 1 2. Ref 2 2.1. Atitit 文
Atitit 搜索工程师的知识点体系总结
目录
2.1. Atitit 文档全文索引的索引种类 用于文本数据挖掘 搜索 数据分析 2
对索引、分词、排序等相关技术有深入的理解;
elasticsearch开发经验,熟悉Lucene,solr
信息检索、自然语言处理、信息挖掘相关方面经验
知识图谱构建,图存储经验更佳
NLP(自然语言处理)
文章评论语义理解 问答系统
对html office(word excel ppt) pdf 文档的信息抽取
Img ocr信息抽取
对压缩文档的抽取 (zip rar
Eml文档
聊天记录 sqlite等信息抽取
Xml 和json 和mhtml文档
Csv文档
目录
1.1. Txt摘要索引。。 1
1.2. File placeholder 索引 1
1.3. Lucence索引 1
2. 与源文件位置关联 1
3. 索引文件的互相转换 2
4. 索引的增量更新 2