预训练语言模型去偏方法——与特定任务相关

 

一、对抗学习

1.1 ADV-标准对抗  

  

  • 主要思想:防止鉴别器识别受保护的属性。以对抗性方法训练模型,并明确掩盖受保护信息。
  • 损失函数:

        

1.2 EADV-优化对抗

  • ADV存在的问题:在某些情况下,即使对抗性组件似乎做得很完美,仍有相当数量的受保护信息,并且可以从编码的表示中提取。
  • EADV主要思想:探索提高对抗性训练的优化方法。
  • 优化方法: 1、增加鉴别器的隐藏维数; 2、在训练过程中,为对抗性成分分配不同的权重; 3、使用具有不同初始化的鉴别器集合; 4、每个t个epoch后, 重新初始化鉴别器的权重。

  • 集合鉴别器的效果最好,不同的鉴别器可以各自专注于代表的不同方面。

 

1.3 DADV-正交集成对抗  

    

  • EADV存在的问题:它不能确保不同的子鉴别器专注于表示的不同方面。
  • DADV主要思想:采用多个具有正交性正则化的鉴别器进行对抗性训练。鼓励鉴别器相互学习正交的隐藏表示。

 

1.4 A-ADV-考虑目标标签的对抗

    

  •  之前的对抗存在的问题:删除受保护信息时没有考虑目标标签。
  • A-ADV主要思想:在m和d之间增加了一个额外的增强层a,其中a考虑了y来创建更丰富的特征。由于a提供了增强的表示,d能够基于ha做出更好的预测g。

 

二、对比学习

1、主要思想:对比方法学习正样本对的相似表示和负样本对的不同表示。

2、构建正负样本对:

  • 传统的InfoNCE方法:从联合分布PXY中采样正样本对(x和y是不同的视图;例如,同一图像的增广变体),从边际分布PXPY采样负样本对(例如,x和y是两个随机图像)。InfoNCE的目标是最大化从联合分布抽样的数据对之间的相似性得分,并最小化从边际分布抽样的数据对之间的相似性得分。

 

3、条件对比学习:

  • Weakly Supervised:将来自数据的辅助信息(如图像的标注属性)作为一个弱监督信号,对具有相同辅助信息的数据学习相似的表示,对具有不同辅助信息的数据学习不同的表示。
  • Fair:对包含敏感属性的样本中抽取负样本,来消除表征中不希望的敏感信息(如性别)。可以防止模型使用敏感信息区分正对和负对(因为所有正和负样本具有相同的结果),模型在对比学习过程中忽略敏感属性的影响。
  • Hard-negative:对比学习可以从硬负样本(即难以与x区分的样本y)中获益,但不是将两个任意的数据视为负对,而是从两个彼此相距不远的随机数据构建一个负对。

 

2.1 CCL-K-条件对比

  • 主要思想:对比方法学习正样本对的相似表示和负样本对的不同表示。
  • 条件对比学习存在的问题:给定一个x及其对应的条件变量结果z,如果z不常见,很难采样与z相关的y。
  • CCL-K:提出将这些目标转换为其他形式,以避免对PY |Z的数据进行抽样,并且可以保留与原始形式相同的功能。即不是从PY |Z中采样y,而是从现有的Y数据中采样y,这些数据的相关条件变量的结果接近于z。比如说:抽样年龄为80岁的样本,CCL-K不是直接对80岁的数据进行采样,而是对所有数据点进行采样,且为70-90岁的数据分配最高的权重。即用相似结果的数据来支持条件抽样。

 

2.2 CON-对比

  • 主要思想:对比方法学习正样本对的相似表示和负样本对的不同表示。CON通过结合对比学习来减轻分类器训练中的偏见,其中共享相同类标签的实例被鼓励具有相似的表示,而共享受保护属性的实例被强制进一步分开。
  • 目标函数:

    Lce:交叉熵损失,主任务的损失,分类更准确;

    Lscl: 主任务标签的实例相同的实例为正样本,不同的实例为负样本。拉近主任务标签相同的样本,最大限度地提高共享主任务标签的样本对的相似性;

    Lfcl: 受保护属性相同的样本互为正样本,不同的互为负样本。拉远受保护属性相同的样本;

    从保护属性的角度最小化这些对的样本对的相似性。即强制将具有不同受保护属性值的样本表示混合在一起,减少主任务和受保护属性之间的相关性。

 

 

三、投影

  • 主要思想:存在一个(完全)包含性别偏见信息的子空间。从表示中识别并删除一个线性子空间,防止任何线性预测器恢复该概念。

3.1 INLP

  • 主要思想:基于线性分类器的重复训练,线性分类器预测要删除的某个属性,然后将表征投影到其零空间上,即投影到不包含性别信息的空间上。

3.2 R-LACE

  • 主要思想:利用对抗学习,从表示中识别并删除性别子空间。

 

posted @ 2024-08-08 15:52  NLP的小Y  阅读(6)  评论(0编辑  收藏  举报
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/