对“基于语义依存的汉语句子相似度计算”的优化。
背景
原文[1]在利用依存结构进行相似度计算时,只考虑那些有效搭配对之间的相似度。有效搭配对是指全句核心词和直接依赖于它的有效词组成的搭配对。
优化策略1:
可以比较依赖树中节点的重复率,重复率可以作为相似度的权重之一。
其中:ComCount:为两棵树都有的节点个数。PairCount1为句子1的节点个数,PairCount2为句子2的节点个数。
优化策略2:
依存结构中的有效搭配,在原有的基础上,加上句子中所有动词或名词,和直接依赖于它的有效词组成的搭配对。
原因:对于稍长的句子,句法分析的依存树就相对发杂,单纯的核心词和直接依赖于它的有效词组成的搭配对,不足以代表句子的结构,将核心词扩大到全句的所有动词和名词,则更能代表全句的语义,以及结构。
注:核心词个人理解为依存树的头结点,如果由于个人理解错误,则策略2不一定成立。
参考目录:
1:基于语义依存的汉语句子相似度计算。 http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=214