9.8.3 束搜索

这里从一堆概率的乘积转化为一堆log的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列,其实是为了惩罚短序列,在没有除以Lα的时候,模型更倾向于输出短的序列,这个操作叫做规范化,如果α=1,则叫做完全规范化

那么调整超参数束宽的时候我们应该怎么调整呢?跟数据集一样,将k变大肯定没有问题,但是我们的时间是有限的,我们高效率的调整,应该是去发现到底是我们的RNN有问题还是我们的k设置的太小了。实际上,有一种比较简单的方法去做这件事情,我们利用RNN的功能是计算所有可能情况的概率和束搜索的功能是在所有可能的情况中选取概率最大的就好了
假设现在输入一个句子x,一个好的翻译是y,我们预测的翻译是y^,那么我们只需要比较P(y|x)P(y^|x)(不妨忽略规范化)

  • P(y|x)>P(y^|x)
    这证明RNN的计算功能是没有问题的,是k太小了
  • P(y|x)P(y^|x)
    这证明RNN是有问题的,我们需要调整RNN

上面的过程是对一个句子而言的,实际中我们将所有预测错误的句子全部进行上面的操作,然后去统计到底是RNN犯的错误更多还是k犯的错误更多,然后就可以进行调整了(如果是RNN犯的错误更多,我们还可以将RNN犯的错误进行归类,比如RNN的介词弄不好,我们就可以多找一点介词训练样本)

显然,上面的做法只要使用了束搜索都可以用,而不是局限于机器翻译

posted @   最爱丁珰  阅读(4)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
历史上的今天:
2024-02-19 Sasha and the Wedding Binary Search Tree
2024-02-19 Sasha and the Casino
2024-02-19 Sasha and a Walk in the City
2024-02-19 CF思维题集合
2024-02-19 Sasha and the Drawing
2024-02-19 天气预报
2024-02-19 导弹防御系统
点击右上角即可分享
微信分享提示