177 词嵌入除偏
这里的偏差不是我们之前所说的偏置,而是下面
以性别歧视为例,假设经过
除偏的步骤如下
- 识别性别所代表的方向。我们在训练出来嵌入矩阵后,嵌入矩阵的每一行都是某个高维空间的一个坐标轴,我们使用SVD将这个高维空间中性别所代表的方向找出来
注意这里图中虽然性别这个方向是一维的,但实际上可能是高维的 - 中立化。将不含性别意义(单词比如girl,boy,grandmother,grandfather等就是包含性别意义的)的词语消除性别偏差,也就是将他们投影到非性别方向上面,比如下图中babysiter和doctor进行的移动
但是有时不含性别意义的单词是比较难判别的,比如beard,只是说统计意义上男性的胡须更多,但是女性也有胡须。一般来说会训练一个二元分类器判断单词是否有性别意义 - 均匀化。将含性别意义的词进行变换,使得每个词到非性别方向上的距离相等,于是这些词只有性别上的差异,如下
grandmother和grandfather被移动到了紫色点
这样做是为了让不包含性别意义的词到包含性别意义的词的距离是相等的(比如图中babysiter到grandmother和grandfather的距离在移动前不等,在移动后就相等了),从而减少偏见
注意变换是成对成对的,比如grandmother和grandfather到非性别方向的距离相等(设为 ),boy和girl到非性别方向的距离相等(设为 ),不一定有
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
2024-02-16 序列统计
2024-02-16 糖果盒
2024-02-16 何老板请客4
2024-02-16 何老板请客2
2024-02-16 何老板请客1
2024-02-16 体操队形1
2024-02-16 体操队形