11 2019 档案

摘要:一、创新点: 鉴于之前的很多方法在relation extraction中 label只用了one-hoe向量,认为关系之间是独立的。本文认为relation也是由关联的。因此,本文提出一个模型RELE(Relation Extraction with Joint Label Embedding), 阅读全文
posted @ 2019-11-22 17:18 _Meditation 阅读(429) 评论(0) 推荐(0) 编辑
摘要:本文准确来说,创新点基本没有,如果说,那就是比其他paper更多的参数。采用2-D的矩阵来进行word和sentence表示,希望能捕获更多的语义信息。 优点: (1)在关系抽取中首次提出2Dquery vector,并赋予了其实际意义对2D query vector矩阵的约束个人感觉也是一个小亮点 阅读全文
posted @ 2019-11-22 09:29 _Meditation 阅读(163) 评论(0) 推荐(0) 编辑
摘要:目标(创新点): 因为远程监督而引入的很多质量很低的句子,这些句子包含了一些嘈杂的单词,而这些单词被当前的远程监督方法忽略了,导致了不可接受的精确度。文本提出的目标是为了解决句子内部的噪音单词。 主要工作: 1. 提出了消除句子中噪声词的STP(Sub-Tree Parse)和增强关系词语义特征的实 阅读全文
posted @ 2019-11-21 16:43 _Meditation 阅读(279) 评论(0) 推荐(0) 编辑
摘要:先说看完本文的一个收获吧: 文章创造性地将关系提取中的自动选种和数据降噪这两个重要任务转换为排序问题。然后,借鉴 HITS、K-means、LSA 和 NMF 等传统算法策略,按照对实例-模式三元组排序的思路,构建出了兼具自动选种和数据降噪功能的算法。实验结果显示,文章提出的算法能够有效完成自动选种 阅读全文
posted @ 2019-11-20 17:00 _Meditation 阅读(120) 评论(0) 推荐(0) 编辑
摘要:这篇文章引入了额外的Knowledge Graph 信息: 实体描述(entity Description). 比如NYT 数据集是通过Freebase做entity linking等工具来进行连接出句子中的实体,而其实每个实体在FB都有一段文字描述, 文中认为现在的工作都集中在NYT + Free 阅读全文
posted @ 2019-11-20 16:11 _Meditation 阅读(188) 评论(0) 推荐(0) 编辑
摘要:概述: 本文主要是设计了一个深度强化学习框架,用于移除原始训练集中的假阳性实例,并重建一个纯净的训练(测试)数据集,以提高关系分类的精度。 该算法独立于关系抽取模型的,是一种即插即用的技术,可应用于任何一个现有的远程监督关系抽取模型 问题引入 关系抽取是知识图谱构建的关键模块之一,同时它也是许多自然 阅读全文
posted @ 2019-11-19 17:46 _Meditation 阅读(353) 评论(0) 推荐(0) 编辑
摘要:在数据库中不会报错,但用java调用时确保错。 SQL语句: 1 SELECT pageId,`name`,text FROM Page WHERE `name` LIKE CONCAT('%',?,'%') 阅读全文
posted @ 2019-11-18 11:18 _Meditation 阅读(1165) 评论(0) 推荐(1) 编辑
摘要:1. paper: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation Encoder 每个时刻输入一个词,隐藏层状态根据公式ht=f(ht−1,xt)改变。其中激 阅读全文
posted @ 2019-11-16 16:03 _Meditation 阅读(872) 评论(0) 推荐(0) 编辑
摘要:由于需要,需要将一系列mysql的操作制作成.sh文件,只需要shell操作bash命令就可以傻瓜式的完成黑盒任务。 1 1 #!/bin/bash 2 2 mysql -uroot -p??? -e "create database IF NOT EXISTS test_db_test" 3 3 阅读全文
posted @ 2019-11-15 09:48 _Meditation 阅读(1099) 评论(0) 推荐(0) 编辑
摘要:有时候我们需要让linux下载多个文件,并且后台下载,不去占用当前控制台。 比如我们需要下载中文维基的三个文件: 1 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 2 https://du 阅读全文
posted @ 2019-11-14 18:17 _Meditation 阅读(2266) 评论(0) 推荐(0) 编辑
摘要:中文维基下载地址: https://dumps.wikimedia.org/zhwiki/ 英文维基下载地址: https://dumps.wikimedia.org/enwiki/ 当我们打开维基下载页面时候,一脸懵逼,根本不知道所需要哪些文件,为此,进行了一些调研。 1. Articles, t 阅读全文
posted @ 2019-11-14 18:10 _Meditation 阅读(1604) 评论(0) 推荐(1) 编辑
摘要:在本文理解之前,这个图必须理解,因为这个是本文数据的划分范围。 x为远程监督的负样本,也就是通过远程监督排除的数据。其余的为远程监督产生的样本,即远程正例样本。但是这里还分真的能表达这个关系的true positive data(○),和噪音数据false positive data(△). 创新点 阅读全文
posted @ 2019-11-14 15:09 _Meditation 阅读(345) 评论(0) 推荐(0) 编辑
摘要:本文解决的问题:1)不能在句子级别进行预测2)基于包的方法通常在过滤噪声数据时,至少保留包中的一条数据。这样的做法无法处理一个包中全是噪声数据的情况,而全是噪声数据的包在远程监督方法中很常见 本文实现的方式概述: 方法包含两个模块:实例选择器(instance selector)和关系分类器(rel 阅读全文
posted @ 2019-11-13 16:45 _Meditation 阅读(143) 评论(0) 推荐(0) 编辑
摘要:论文通过实现RNN来完成了文本分类。 论文地址:88888888 模型结构图: 原理自行参考论文,code and comment(https://github.com/graykode/nlp-tutorial): 1 # -*- coding: utf-8 -*- 2 # @time : 201 阅读全文
posted @ 2019-11-09 16:27 _Meditation 阅读(1093) 评论(0) 推荐(0) 编辑
摘要:论文 《 Convolutional Neural Networks for Sentence Classification》通过CNN实现了文本分类。 论文地址: 666666 模型图: 模型解释可以看论文,给出code and comment:https://github.com/graykod 阅读全文
posted @ 2019-11-09 15:13 _Meditation 阅读(1623) 评论(0) 推荐(0) 编辑
摘要:论文来自Mikolov等人的《Efficient Estimation of Word Representations in Vector Space》 论文地址: 66666 论文介绍了2个方法,原理不解释... skim code and comment https://github.com/g 阅读全文
posted @ 2019-11-09 13:54 _Meditation 阅读(438) 评论(0) 推荐(1) 编辑
摘要:论文地址:http://www.iro.umontreal.ca/~vincentp/Publications/lm_jmlr.pdf 论文给出了NNLM的框架图: 针对论文,实现代码如下(https://github.com/graykode/nlp-tutorial): 1 # -*- codi 阅读全文
posted @ 2019-11-09 12:58 _Meditation 阅读(635) 评论(0) 推荐(0) 编辑
摘要:概述 为了减轻pattern编写的工作量,并能够对新的关系类型进行快速泛化,作者提出了一种 pattern诊断框架DIAG-NRE,该框架能够在人工专家的参与下,从噪声数据中自动总结和提炼高质量的关系模式 主要结构图: NRE Models对于一个instance s, token成 [x1,x2, 阅读全文
posted @ 2019-11-08 16:20 _Meditation 阅读(178) 评论(0) 推荐(0) 编辑
摘要:一。概述 远程监督的关系抽取目前的聚焦点在如何去消除噪音。主要方法有多实例的学习方法和提供语言或语境的信息去引导关系分类。尽管取得了sota,但是这些模型都只是在有限的关系集合中取得高的精度,而忽视了关系有很多种,模型缺少泛化能力。 对此,本文提出了一种基于预训练语言模型的远程监督方法。 由于GPT 阅读全文
posted @ 2019-11-07 16:46 _Meditation 阅读(533) 评论(0) 推荐(0) 编辑
摘要:常用数据集 ACE 2005: 599 docs. 7 types; SemiEval 2010 Task8 Dataset: 19 types train data: 8000 test data: 2717 NYT+FreeBase 通过Distant Supervised method 提取, 阅读全文
posted @ 2019-11-01 16:51 _Meditation 阅读(1747) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示