摘要:
目标(创新点): 因为远程监督而引入的很多质量很低的句子,这些句子包含了一些嘈杂的单词,而这些单词被当前的远程监督方法忽略了,导致了不可接受的精确度。文本提出的目标是为了解决句子内部的噪音单词。 主要工作: 1. 提出了消除句子中噪声词的STP(Sub-Tree Parse)和增强关系词语义特征的实 阅读全文
摘要:
先说看完本文的一个收获吧: 文章创造性地将关系提取中的自动选种和数据降噪这两个重要任务转换为排序问题。然后,借鉴 HITS、K-means、LSA 和 NMF 等传统算法策略,按照对实例-模式三元组排序的思路,构建出了兼具自动选种和数据降噪功能的算法。实验结果显示,文章提出的算法能够有效完成自动选种 阅读全文
摘要:
这篇文章引入了额外的Knowledge Graph 信息: 实体描述(entity Description). 比如NYT 数据集是通过Freebase做entity linking等工具来进行连接出句子中的实体,而其实每个实体在FB都有一段文字描述, 文中认为现在的工作都集中在NYT + Free 阅读全文
摘要:
概述: 本文主要是设计了一个深度强化学习框架,用于移除原始训练集中的假阳性实例,并重建一个纯净的训练(测试)数据集,以提高关系分类的精度。 该算法独立于关系抽取模型的,是一种即插即用的技术,可应用于任何一个现有的远程监督关系抽取模型 问题引入 关系抽取是知识图谱构建的关键模块之一,同时它也是许多自然 阅读全文
摘要:
在数据库中不会报错,但用java调用时确保错。 SQL语句: 1 SELECT pageId,`name`,text FROM Page WHERE `name` LIKE CONCAT('%',?,'%') 阅读全文
摘要:
1. paper: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation Encoder 每个时刻输入一个词,隐藏层状态根据公式ht=f(ht−1,xt)改变。其中激 阅读全文
摘要:
由于需要,需要将一系列mysql的操作制作成.sh文件,只需要shell操作bash命令就可以傻瓜式的完成黑盒任务。 1 1 #!/bin/bash 2 2 mysql -uroot -p??? -e "create database IF NOT EXISTS test_db_test" 3 3 阅读全文
摘要:
有时候我们需要让linux下载多个文件,并且后台下载,不去占用当前控制台。 比如我们需要下载中文维基的三个文件: 1 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 2 https://du 阅读全文
摘要:
中文维基下载地址: https://dumps.wikimedia.org/zhwiki/ 英文维基下载地址: https://dumps.wikimedia.org/enwiki/ 当我们打开维基下载页面时候,一脸懵逼,根本不知道所需要哪些文件,为此,进行了一些调研。 1. Articles, t 阅读全文
摘要:
在本文理解之前,这个图必须理解,因为这个是本文数据的划分范围。 x为远程监督的负样本,也就是通过远程监督排除的数据。其余的为远程监督产生的样本,即远程正例样本。但是这里还分真的能表达这个关系的true positive data(○),和噪音数据false positive data(△). 创新点 阅读全文