2012年8月10日

信息检索导论学习笔记(2)

摘要: 词项词典及倒排记录表回顾倒排索引的构建收集待建索引的原文档(Document)将原文档传给词条化工具(Tokenizer)进行文本词条化将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term)将得到的词项(Term)传给索引组件(Indexer),建立倒排索引文档文档分析以及编码转换语言识别、编码方式识别、文件格式等处理,得到字符序列。如何确定索引的单位? 合理组织“索引粒度”,确定文档单位注:语言识别和编码识别,理论上都可以看成是分类问题,基于分类方法进行处理。但实际中,常采用启发式方法词条化定义好文档单位之后,词条化是将 阅读全文

posted @ 2012-08-10 15:46 God bless you 阅读(4647) 评论(0) 推荐(0) 编辑

信息检索导论学习笔记(1)

摘要: 布尔检索 信息检索概述 信息检索:是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies ... 阅读全文

posted @ 2012-08-10 15:35 God bless you 阅读(3824) 评论(1) 推荐(3) 编辑

导航