qdgy----  

浅谈大语言模型相关的安全性议题(上)

一.语言模型还是会讲错话怎么办

  • 在语言模型和用户间添加安全层,用来做事实核验,有害词条检测等检查,降低讲错话的概率

13_a

  • 事实查核:例如FacTool,在LLM提供的答案中抽取其中的一些陈述,生成相应问题,在去搜索引擎搜寻这些问题

13_b

二.LLM会不会自带偏见

  • 改变输入中的某些特殊字眼,观察答案会发生什么样的变化,或者将不同的答案输入另一个功能性LLM,如文本情感分析,来分析输出答案的不同
  • 使用一个LLM产生易产生偏见的输入,分析输出答案的不同

13_c

三.减轻偏见的方法

1.对输入的资料做充分的预处理,

2.训练过程中调参来减少偏见

3.修改语言模型输出带偏见答案的几率,减少其输出中的偏见

4.在生成答案后对答案进行检查加工

四.分辨一句话是否是AI生成的

  • 准备大量AI生成的句子和人类生成的句子,寻找差异
  • 利用大量AI生成的句子和人类生成的句子训练一个LLM,利用其分辨

13_d

  • 给LLM生成的文字加上“水印”,例如,把LLM生成的Token分为两组,产生第奇数个Token时,增加一部分Token的生成几率,产生第偶数个Token时,增加另一部分Token生成的几率

13_e

posted on 2024-08-16 22:42  qsc789  阅读(19)  评论(0编辑  收藏  举报