对“基于语义依存的汉语句子相似度计算”的优化。

背景

原文[1]在利用依存结构进行相似度计算时,只考虑那些有效搭配对之间的相似度。有效搭配对是指全句核心词和直接依赖于它的有效词组成的搭配对。

优化策略1

可以比较依赖树中节点的重复率,重复率可以作为相似度的权重之一。 

其中:ComCount:为两棵树都有的节点个数。PairCount1为句子1的节点个数,PairCount2为句子2的节点个数。

优化策略2

依存结构中的有效搭配,在原有的基础上,加上句子中所有动词或名词,和直接依赖于它的有效词组成的搭配对。

原因:对于稍长的句子,句法分析的依存树就相对发杂,单纯的核心词和直接依赖于它的有效词组成的搭配对,不足以代表句子的结构,将核心词扩大到全句的所有动词和名词,则更能代表全句的语义,以及结构。

注:核心词个人理解为依存树的头结点,如果由于个人理解错误,则策略2不一定成立。

 参考目录:

1基于语义依存的汉语句子相似度计算。  http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=214

 

posted @ 2011-11-01 18:22  咆哮  阅读(439)  评论(0编辑  收藏  举报