【NLP】选择目标序列:贪心搜索和Beam search

构建seq2seq模型,并训练完成后,我们只要将源句子输入进训练好的模型,执行一次前向传播就能得到目标句子,但是值得注意的是:

seq2seq模型的decoder部分实际上相当于一个语言模型,相比于RNN语言模型,decoder的初始输入并非0向量,而是encoder对源句子提取的信息。因此整个seq2seq模型相当于一个条件语言模型,本质上学习的是一个条件概率,即给定输入x,学习概率分布P(y|x)。得到这个概率后,对应概率最大的目标句子y就是模型认为的最好的输出。我们不希望目标的输出是随机的(这相当于对学习的概率分布P(y|x)随机取样),但要选择最好的句子y需要在decoder的每一步遍历所有可能的单词,假如目标句子的长度为n,词典大小为v,那么显然,可能的句子数量是vn,这显然是做不到的。

一个自然的想法是贪心搜索(greedy search),即decoder的每一步都选择最可能的单词,最后得到句子的每一个单词都是每一步认为最合适的单词。但这样并不保证整个句子的概率是最大的,即不能保证整个句子最合适。实际上,贪心搜索的每一步搜索都处理成仅仅与前面刚生成的一个单词相关,类似于马尔科夫假设。这显然是不合理的,具体来说,贪心搜索到的句子y概率是使得下式概率最大:

P(y|x)=k=1np(yk|x,yk1)

而实际上,根据全概率公式计算得到P(y|x)为:

P(y|x)=k=1np(yk|x,y1,y2,...,yk1)

译为束搜索。思想是,每步选取最可能的k个结果,再从最后的k个结果中选取最合适的句子。k称为beam size。

具体做法是:

首先decoder第一步搜索出最可能的k个单词,即找到y11,y12,...,y1k,他们的概率p(y11|x),...,p(y1k|x)为最大的k个。

进行第二步搜索,分别进行k个模型副本的搜索。每个副本i,根据上一步选取的单词y1i,选取概率最大的k个结果y21,y22,...,y2k。这样,就有了kk个可能的结果,从这些结果中选择k个概率最大的结果,即p(y1i|x)p(y2j|x,y1i)最大的k个结果。

进行第三步搜索,从第二步中确定的k个结果出发,再进行k个模型副本的搜索,直到最后一步,从最后的k个结果中选取概率最大者。

显然,若k=1则为贪心搜索,k越大则占用内存越大,计算代价越大,实际应用中取10即可。

另外,可以发现概率的连乘使得概率越来越小,很可能溢出,为了保证模型的稳定性,常对概率连乘计算+log变为加法。

P(y|x)=log(k=1np(yk|x,y1,y2,...,yk1))

从Beam search的搜索过程中可以发现,Beam search偏向于找到更短的句子,也就是说,如果搜索过程中有一支搜索提前发现了<EOS>,而另外k1支继续搜索找到其余更长的结果,那么由于概率连乘(或log连加),越长的结果概率肯定越小。因此有必要进行模型修正,即进行长度归一化,具体来说,即:

选择概率P(y|x)=1nlog(k=1np(yk|x,y1,y2,...,yk1))最大的句子,式中,n为该结果序列长度。

另外,实践中还做了如下修正:

P(y|x)=1nαlog(k=1np(yk|x,y1,y2,...,yk1))

式中,超参数α取0.7比较合适。

4 误差分析

对于训练的seq2seq模型,对它输出的句子y,以及实际的句子y,若概率y大于y,(统计所有句子,平均来说是这个结果),则说明,seq2seq模型出错了。否则,说明,baem search并没有找到最合适的结果,可以考虑增大beam size大小。

posted @   pigcv  阅读(2382)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· .NET Core 中如何实现缓存的预热?
· 三行代码完成国际化适配,妙~啊~
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
点击右上角即可分享
微信分享提示