关系抽取---远程监督 ---《DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction》

在本文理解之前，这个图必须理解，因为这个是本文数据的划分范围。

x为远程监督的负样本，也就是通过远程监督排除的数据。其余的为远程监督产生的样本，即远程正例样本。但是这里还分真的能表达这个关系的true positive data（○）,和噪音数据false positive data（△）.

创新点：

　　1. 第一次将对抗生成网络应用在关系抽取领域。

　　2. 模型是的句子层面，与之前的bag-level不同。并且generator是可插拔式，可以安插在任何网络之前，进行对数据的清洗。

文本有强假设（ture postive的data还是在bag中占多大数的）（这个假设有些过于强势，因为relation bag 有几率全是噪音数据）

本文思想：

　　给定一组远程监督产生的句子，generator试图从中生成true positive data; 但是，这些生成的样本被视为nagative data来训练discriminator。因此，当完成一次扫描DS positive data时，generator产生的true positive data越多，discrimnator的性能下降越快。经过对抗性训练，我们希望得到一个鲁棒的genarator，使鉴别器在最大程度上丧失其分类能力。

　　（可能有点绕口，这么解释吧：

　　　　本文的目标就是获得一个generator，可以最大限度的过滤掉噪音数据。那么留下来的正好是true positive data,这些留下的数据用于训练discriminator。按照正常的思维，这些优质数据被discriminator训练的时候，应该最大化true positive data对应relation的概率。但是恰恰相反，本文要让这批数据被discriminator看成是负例数据。所以这样就可以最大限度的降低discrimination的分类能力。）

pre-trainning strategy:

　　　　1. discriminator 用 DS positive dataset P (label 1) and DS negative set N D (label 0)　预训练。（见上图），预训练的目标:accuracy到达90%以上。　　　

　　　　2. generator用 DS positive dataset P (label 1) and DS negative set N D (label 0)　预训练.(但是这个negative set 和discriminator不相同，目的就是为了实验的鲁棒性)，同时让generator过拟合训练数据。

　　　　　　（过拟合是为了让generator可以最大限度的在对抗学习中逐渐降低 false positive samples）