《自然语言处理技术在中文全文检索中的应用》笔记

全文检索技术
全文检索

是一种面向全文和提供全文的检索技术, 其核心技术是将文档中所有基本元素的出现信息记录到索引库中, 检索时允许用户采用自然语言表达其检索需求, 并借助截词、邻词等匹配方法直接查阅文献原文信息, 最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础, 它以特定的结构存储了数据资源的全文信息, 从而为全文检索系统提供可检索的数据对象。

自然语言处理研究内容的基础部分。

词法分析、句法分析、语义分析、语用分析、语境分析

自然语言处理技术在中文全文检索中的应用

文献信息处理,对文献进行分析, 提取关键信息, 建立转换文档及数据库;
提问处理, 解释查询提问;
问题匹配, 将查询提问与转换文档及数据库进行匹配; 对查询结果进行排序处理。

索引包括：

字索引
词索引
短语索引

文摘自动生成：
常用的文摘自动生成的方法是基于统计的方法, 这种方法的基本思想是, 首先对全文进行自动分词, 然后统计文章中各个词出现的频率和权重, 并按照某种准则确定出关键词,将关键词所在的语句抽取出来, 依据各种句子权重指标计算句子综合权重, 选出一组最能代表文献主题内容的句子, 并对句子进行排序作为文摘句, 最后生成文摘。
文本分类

包括自动聚类
自动归类

两者的主要区别就是自动聚类不需要事先定义好分类体系, 而自动归类则需要确定好类别体系, 并且要为每个类别提供一批预先分好的对象作为训练文集。
基于自然语言处理技术的中文全文检索技术的局限
自然语言处理技术在中文全文检索中的应用深度不够。目前, 自然语言处理技术在全文检索中使用较多的是词法和句法分析, 而在语音、语义和语用方面的应用很少, 即对文本和查询仍停留在对语言结构的分析, 还没有达到概念语义的层面。因而在分析文本的过程中, 系统不能借助上下文语言环境, 正确地推断和选择词汇的含义。
检索效率不高

返回的信息过多
返回重复的信息。

中文全文检索技术的未来发展方向

文献信息的深度处理
未来的标引是按照一定的格式, 建立词法、句法/语义层次的深度标引。
匹配机制的进一步优化
未来的匹配机制将达到真正意义上的概念匹配, 匹配在语义上相同、相近、相包含的词语, 使检索更接近人的智能程度, 以减少误检和漏检.
智能化知识检索
从内容上真正地理解文献所论述的主题;
能使用适当的知识表示方法来充分体现各主题概念和标识之间的分、属、交叉等复杂关系;
能准确在分析用户用各种方式表达的查询要求, 理解用户的真正意图
具有基于内容的相似性检索、自动分类(自动聚类)和自动摘要、以及知识压缩和去重功能
跟踪和分析用户的检索行为, 并与用户进行相关反馈, 为用户提供个性化信息服务;
检索结果自动聚类, 提高检索结果的相关度。

笔记：主要看看缺陷和发展方向，为写论文做准备。不过这篇文章是07年的。。。看到了几个词：歧义处理、语料库中没有的新词、语义、查询结果相关性差，冗余信息多。全文检索要提升查准率、查全率、查询速度。我有个小思路是：根据查询语句中的关键词，和文章中与此关键词相关的词语做更好的排序。ps：仅是yy而已。

posted @ 2015-11-02 15:32 StevenLuke 阅读(378) 评论(0) 收藏举报

刷新页面返回顶部

StevenLuke

《自然语言处理技术在中文全文检索中的应用》笔记

公告