大地__分词中歧义的多样性

Posted on 2009-10-15 14:29 龍騎少校阅读(130) 评论(0) 编辑收藏举报

实际搜索通过程序模型分析文档，而是试图切出和人的思维*惯相*的结果是非常的艰难的，清华大学在日本的交流“自然语言和计算机语言的转换课题”中说到，目前的索引程序尤其大型的搜索引擎只有56%的准确率。

所以搜索在大力开发歧义字段自动识别技术，以此拉*和人思维和阅览*惯的距离。

切词的歧义：

交集性歧义篇：

“乒乓球拍卖完了”

出现两种切分结果>>>

乒乓球拍/卖/完了

乒乓球/拍卖/完了

这是两种不同的结果，同时直接影响到该句的主题关键词的提取。所以最好的办法只有在语句中，再次的找寻答案。

（例子来自：搜索引擎技术赵杰著）

组合型的歧义类型：

例如早期不是吵得沸沸扬扬的“和服”

“某某长生产的长袖衫和服饰非常的畅销”

其中的和服将被歧义。

这是本质的歧义，中文索引中此类的情况很多。

刷新页面返回顶部

龍騎少校