Falcon-Ao
是一个基于Java的自动本体匹配系统,已经成为 RDF(S) 和 OWL 所表达的 Web本体 相匹配的一种实用和流行的选择。
原理简介: https://mp.weixin.qq.com/s/NhZqwmiDhQGbDjuonwMWMw
官网链接:http://ws.nju.edu.cn/falcon-ao/
代码下载链接:http://ws.nju.edu.cn/falcon-ao/res/falcon.zip
论文下载链接:http://ws.nju.edu.cn/falcon-ao/pub/Hu.JWS.2008.pdf
论文阅读笔记:https://app.yinxiang.com/fx/c0b33b28-f204-4def-8e71-7f33eaf17139
用法:【目前没用起来,原因如下】
- 关于用法,目前我们能下载到的只有官方发布的Java代码,并没有一个文档来告诉我们该怎么去使用Falcon-AO;
- 官网Falcon-AO发布平台链接访问不到:http://seals.inrialpes.fr/platform/;
- 官网服务链接访问不到:http://219.219.116.154:8083/falconWS?wsdl;
- 已发邮件给作者进行求教,如果后续有收到回馈,可继续进行实践。
LIMES
实体关系发现框架LIMES用法
原理简介:https://mp.weixin.qq.com/s/Ie2nt0zOi2VK97x4jXYUwA
资源链接:http://www.openkg.cn/dataset/limes-tutorial
调通的程序下载链接:https://share.weiyun.com/l3gNKqpg【没加密哦,自取】
使用教程可详细查看:tutorial-limes.pdf【我们只要按照上面的步骤一步步执行即可,其中一些可能要注意的点可细看下文一、二部分】
一、我服务器上一些环境配置**
【注】仅供参考,其余环境可根据自己需求进行调整。
- mvn -v
- Apache Maven 3.3.9 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-11T00:41:47+08:00)
- Maven home: /usr/local/apache-maven-3.3.9
- Java version: 1.8.0_265, vendor: Private Build
- Java home: /usr/lib/jvm/java-8-openjdk-amd64/jre
- Default locale: en_HK, platform encoding: UTF-8
- OS name: "linux", version: "4.4.0-131-generic", arch: "amd64", family: “unix"
- java -version
- openjdk version "1.8.0_265"
- OpenJDK Runtime Environment (build 1.8.0_265-8u265-b01-0ubuntu2~16.04-b01)
- OpenJDK 64-Bit Server VM (build 25.265-b01, mixed mode)
二、注意事项
-
运行 mvn clean install 和 mvn clean package shade:shade -Dcheckstyle.skip=true -Dmaven.test.skip=true 命令后可能无法生成我们想要的 limes-core-VERSION-SNAPSHOT.jar 包。具体原因我不是很清楚,但我个人觉得是因为网络的问题无法成功生成jar包【因为我用公司的网络无法成功执行,但我远程连接我实验室服务器,并在本地机(2M/s)执行后无此类问题】
-
java -jar limes-core-1.7.4-SNAPSHOT.jar config.xml其中config.xml是要自己写的配置文件,文件中的内容可根据自己需求进行编写,具体可参考tutorial-limes.pdf。
-
关于config.xml配置文件里面有涉及源数据集S,目标数据集T。我们需要预先下载好,并导入到相应位置中。
-
出现的BUG!
dark- 解决方案:
- Have you tried to run a query against both endpoints? It might be that at that time they were not reachable cause they were overloaded with requests. Also can you please check your proxy/firewall settings?
- 看看你的数据加载位置有木有写错,有可能程序一直加载不到数据,导致服务不可获取等情况。
- 解决方案:
三、编写配置文件
使用LIME工具进行实习关系融合的关键步骤是配置文件的编写,包括数据源、融合算法、融合条件等信息。
-
数据源
- 通过
<Source>
和<Target>
标签指定数据源2、数据源可以是SPARQL端点,也可以是本地文件(需要绝对路径)3、标签内可以通过<VAR>
指定参与实体相似度计算的变量,通过<PAGESIZE>
指定<SPARQL>
端点每次查询返回的最大Tripe数量以及其他的一些限制和预处理操作
- 通过
-
融合算法可以通过度量表达式或机器学习算法计算相似度。
- 通过
<METRIC>
标签指定度量表达式来计算相似度。多个Mertic Expression可以使用MIN、MAX、ADD操作符结合使用,目前所有操作符只支持两个Expression结合,但可以嵌套。 - 目前,METRIC支持的原子表达式有:Cosine、ExactMatch、Jaccard、Jaro、Jaro Winkler、Levenshtein、MongeElkan、Overlap、Qgrams、RatcliffObershelp、Soundex、Trigram。
- 通过
<MLALGORITHM>
指定机器学习算法自行计算相似度- 通过
<NAME>
指定选用的算法,支持wombat simple、wombat complete、eagle; - 通过
<PARAMETER>
制定训练参数。
- 通过
- 通过
-
融合条件包括接受条件和复审条件1、通过
<ACCEPTANCE>
指定接受条件,通过<REVIEW>
指定复审条件;2、两个标签中都需要通过<THRESHOLD>
、<FILE>
和<RELATION>
指定阈值,输出文件路径和实体关系名称;3、复审条件与接受条件类似,一般阈值比前者小。对于某些不满足接受的实体对,可根据复审条件输出到另一个文件进行复审。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步