2020 年 6月 15 日随笔档案 - lypbendlf

2020年6月15日

摘要： https://zhuanlan.zhihu.com/p/33752313，讲的不错。 1.损失函数第一项主要是针对真实样本的，第二项是针对生成样本的损失。 //判别器是尽可能地判别出是真实数据还是生成数据，我一直以为是尽可能判别不出呢。。。 2.训练过程可以看到是先确定G，优化D，确定了优化D 阅读全文

posted @ 2020-06-15 23:02 lypbendlf 阅读(1642) 评论(0) 推荐(0) 编辑

巴氏距离

摘要： https://blog.csdn.net/v_july_v/article/details/8203674，介绍了很多距离 1.巴氏距离（Bhattacharyya Distance）对于离散概率分布 p和q在同一域 X，它被定义为：阅读全文

posted @ 2020-06-15 22:01 lypbendlf 阅读(677) 评论(0) 推荐(0) 编辑

transformer的encoder和decoder学习

摘要： https://www.infoq.cn/article/lteUOi30R4uEyy740Ht2，这个后半部分讲的不错！ 1.Transformer Encoder （N=6 层，每层包括 2 个 sub-layers）：上面这个图真的讲的十分清楚了。 multi-head self-atten 阅读全文

posted @ 2020-06-15 21:10 lypbendlf 阅读(5719) 评论(0) 推荐(0) 编辑

Attention历史梳理

摘要： https://zhuanlan.zhihu.com/p/77307258，这篇写的简直太好了，不愧是阿里啊！ https://www.infoq.cn/article/lteUOi30R4uEyy740Ht2 1.attention计算分为三步 score-function：打分部分 normal 阅读全文

posted @ 2020-06-15 20:50 lypbendlf 阅读(398) 评论(0) 推荐(0) 编辑

Attention中的qkv与机器翻译中的对应关系

摘要： https://blog.csdn.net/tg229dvt5i93mxaq5a6u/article/details/78422216，这篇讲的非常好，解决了我的好多疑问。 1.机器翻译中计算权重和概率其中aij是通过si-1和hj计算得到的，也就相当于qk，那么上式中的hj也就是v，在这里k=v 阅读全文

posted @ 2020-06-15 18:31 lypbendlf 阅读(3151) 评论(0) 推荐(1) 编辑

公告