浅谈大语言模型相关的安全性议题(上)
一.语言模型还是会讲错话怎么办
- 在语言模型和用户间添加安全层,用来做事实核验,有害词条检测等检查,降低讲错话的概率
- 事实查核:例如FacTool,在LLM提供的答案中抽取其中的一些陈述,生成相应问题,在去搜索引擎搜寻这些问题
二.LLM会不会自带偏见
- 改变输入中的某些特殊字眼,观察答案会发生什么样的变化,或者将不同的答案输入另一个功能性LLM,如文本情感分析,来分析输出答案的不同
- 使用一个LLM产生易产生偏见的输入,分析输出答案的不同
三.减轻偏见的方法
1.对输入的资料做充分的预处理,
2.训练过程中调参来减少偏见
3.修改语言模型输出带偏见答案的几率,减少其输出中的偏见
4.在生成答案后对答案进行检查加工
四.分辨一句话是否是AI生成的
- 准备大量AI生成的句子和人类生成的句子,寻找差异
- 利用大量AI生成的句子和人类生成的句子训练一个LLM,利用其分辨
- 给LLM生成的文字加上“水印”,例如,把LLM生成的Token分为两组,产生第奇数个Token时,增加一部分Token的生成几率,产生第偶数个Token时,增加另一部分Token生成的几率