写的真好,赞
输入一般是embedding+positional embedding吧。这里多出来的文本向量怎么理解,能举个例子吗
谢谢博主,我是在Boyd的凸优化上也看见了这个先增后减的图,觉得有点问题,搜索到了您的博客。
楼主您好,第三幅图我存在一些疑惑,为何实线是先增后减,从第一幅图中可以看出,lambda较小时,在约束条件成立的区间内,极小值仍是1.54