知识融合开源工具Falcon-Ao和LIMES
post @ 2022-07-28 15:37 阅读(540) 评论(0)

Falcon-Ao

是一个基于Java的自动本体匹配系统,已经成为 RDF(S) 和 OWL 所表达的 Web本体 相匹配的一种实用和流行的选择。
原理简介: https://mp.weixin.qq.com/s/NhZqwmiDhQGbDjuonwMWMw
官网链接:http://ws.nju.edu.cn/falcon-ao/
代码下载链接:http://ws.nju.edu.cn/falcon-ao/res/falcon.zip
论文下载链接:http://ws.nju.edu.cn/falcon-ao/pub/Hu.JWS.2008.pdf
论文阅读笔记:https://app.yinxiang.com/fx/c0b33b28-f204-4def-8e71-7f33eaf17139
用法:【目前没用起来,原因如下】

  1. 关于用法,目前我们能下载到的只有官方发布的Java代码,并没有一个文档来告诉我们该怎么去使用Falcon-AO;
  2. 官网Falcon-AO发布平台链接访问不到:http://seals.inrialpes.fr/platform/;
  3. 官网服务链接访问不到:http://219.219.116.154:8083/falconWS?wsdl;
  4. 已发邮件给作者进行求教,如果后续有收到回馈,可继续进行实践。

LIMES

实体关系发现框架LIMES用法
原理简介:https://mp.weixin.qq.com/s/Ie2nt0zOi2VK97x4jXYUwA
资源链接:http://www.openkg.cn/dataset/limes-tutorial
调通的程序下载链接:https://share.weiyun.com/l3gNKqpg【没加密哦,自取emoji
使用教程可详细查看:tutorial-limes.pdf【我们只要按照上面的步骤一步步执行即可,其中一些可能要注意的点可细看下文一、二部分】

一、我服务器上一些环境配置**

【注】仅供参考,其余环境可根据自己需求进行调整。

  • mvn -v
    • Apache Maven 3.3.9 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-11T00:41:47+08:00)
    • Maven home: /usr/local/apache-maven-3.3.9
    • Java version: 1.8.0_265, vendor: Private Build
    • Java home: /usr/lib/jvm/java-8-openjdk-amd64/jre
    • Default locale: en_HK, platform encoding: UTF-8
    • OS name: "linux", version: "4.4.0-131-generic", arch: "amd64", family: “unix"
  • java -version
    • openjdk version "1.8.0_265"
    • OpenJDK Runtime Environment (build 1.8.0_265-8u265-b01-0ubuntu2~16.04-b01)
    • OpenJDK 64-Bit Server VM (build 25.265-b01, mixed mode)

二、注意事项

  • 运行 mvn clean install 和 mvn clean package shade:shade -Dcheckstyle.skip=true -Dmaven.test.skip=true 命令后可能无法生成我们想要的 limes-core-VERSION-SNAPSHOT.jar 包。具体原因我不是很清楚,但我个人觉得是因为网络的问题无法成功生成jar包【因为我用公司的网络无法成功执行,但我远程连接我实验室服务器,并在本地机(2M/s)执行后无此类问题】

  • java -jar limes-core-1.7.4-SNAPSHOT.jar config.xml其中config.xml是要自己写的配置文件,文件中的内容可根据自己需求进行编写,具体可参考tutorial-limes.pdf。

  • 关于config.xml配置文件里面有涉及源数据集S,目标数据集T。我们需要预先下载好,并导入到相应位置中。
    dark

  • 出现的BUG!
    dark

    • 解决方案:
      • Have you tried to run a query against both endpoints? It might be that at that time they were not reachable cause they were overloaded with requests. Also can you please check your proxy/firewall settings?
      • 看看你的数据加载位置有木有写错,有可能程序一直加载不到数据,导致服务不可获取等情况。

三、编写配置文件

使用LIME工具进行实习关系融合的关键步骤是配置文件的编写,包括数据源、融合算法、融合条件等信息。

  • 数据源

    • 通过<Source><Target>标签指定数据源2、数据源可以是SPARQL端点,也可以是本地文件(需要绝对路径)3、标签内可以通过<VAR>指定参与实体相似度计算的变量,通过<PAGESIZE>指定<SPARQL>端点每次查询返回的最大Tripe数量以及其他的一些限制和预处理操作
  • 融合算法可以通过度量表达式或机器学习算法计算相似度。

    • 通过<METRIC>标签指定度量表达式来计算相似度。多个Mertic Expression可以使用MIN、MAX、ADD操作符结合使用,目前所有操作符只支持两个Expression结合,但可以嵌套。
    • 目前,METRIC支持的原子表达式有:Cosine、ExactMatch、Jaccard、Jaro、Jaro Winkler、Levenshtein、MongeElkan、Overlap、Qgrams、RatcliffObershelp、Soundex、Trigram。
    • 通过<MLALGORITHM>指定机器学习算法自行计算相似度
      • 通过<NAME>指定选用的算法,支持wombat simple、wombat complete、eagle;
      • 通过<PARAMETER>制定训练参数。
  • 融合条件包括接受条件和复审条件1、通过<ACCEPTANCE>指定接受条件,通过<REVIEW>指定复审条件;2、两个标签中都需要通过<THRESHOLD><FILE><RELATION>指定阈值,输出文件路径和实体关系名称;3、复审条件与接受条件类似,一般阈值比前者小。对于某些不满足接受的实体对,可根据复审条件输出到另一个文件进行复审。

文章链接:https://mp.weixin.qq.com/s/h-39Cuhubzg6X9ynC1phXA

posted @     阅读(561)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示