信息检索导论学习笔记(2)
摘要:
词项词典及倒排记录表回顾倒排索引的构建收集待建索引的原文档(Document)将原文档传给词条化工具(Tokenizer)进行文本词条化将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term)将得到的词项(Term)传给索引组件(Indexer),建立倒排索引文档文档分析以及编码转换语言识别、编码方式识别、文件格式等处理,得到字符序列。如何确定索引的单位? 合理组织“索引粒度”,确定文档单位注:语言识别和编码识别,理论上都可以看成是分类问题,基于分类方法进行处理。但实际中,常采用启发式方法词条化定义好文档单位之后,词条化是将 阅读全文
posted @ 2012-08-10 15:46 God bless you 阅读(4696) 评论(0) 推荐(0) 编辑