作者:finallyly 出处:博客园(转载请注明作者和出处)

   很多时候,我们设计了一个方法,为了证明我们的方法是有效的,就要将自己的方法和其他人的方法对比,作用于同一个数据集,然后对比实验结果。很多时候我们手头的数据集没有标注,这时候可以借助“用户评价”的模式来进行方法评估。

 本文的主旨就是希望对搜索、语义计算有兴趣的朋友来帮忙评测下以下两种方法作用于同一个数据集时,那个方法效果更好。

 待测试的两个方法的目的是:从汉语技术术语中找出语义上同旨,或者语义上非常详尽的术语,作为一个聚类。该方法的应用前景有:(1)学术搜索中的关键词扩展;(2)辅助术语词典的自动编撰

下面简单看一下试验素材:(如下图所示有很多术语词汇(图中仅显示素材中的部分词汇))

我们的目的是将这些词汇按照语义相关度进行“聚类”。

首先给出方法一的部分结果:

 

下面给出方法二的部分结果

 

实验结果下载(欢迎大家下载数据,并对两种方法的好坏做出评价(请在本篇博客后面留言  

https://files.cnblogs.com/finallyliuyu/Technical_Termsclustering.rar

 

 

posted on 2011-04-20 21:04  finallyly  阅读(1429)  评论(6编辑  收藏  举报