Frequency and presence penalties-OpenAI API系统快速入门
频率和存在处罚
在完成 API中找到的频率和存在惩罚可用于降低对重复的令牌序列进行采样的可能性。 它们通过直接修改具有加性贡献的对数(非规范化对数概率)来工作。
mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence
条件:
mu[j]
是 j 令牌的对数c[j]
是该令牌在当前位置之前采样的频率float(c[j] > 0)
是 1 if,否则为 0c[j] > 0
alpha_frequency
是频率惩罚系数alpha_presence
是存在惩罚系数
正如我们所看到的,存在惩罚是一次性的加性贡献,适用于至少采样过一次的所有令牌,频率惩罚是与特定令牌已被采样的频率成正比的贡献。
惩罚系数的合理值约为 0.1 比 1,如果目的是稍微减少重复样本。如果目的是强烈抑制重复,则可以将系数增加到 2,但这会显着降低样本的质量。负值可用于增加重复的可能性。