摘要: https://zhuanlan.zhihu.com/p/33752313,讲的不错。 1.损失函数 第一项主要是针对真实样本的,第二项是针对生成样本的损失。 //判别器是尽可能地判别出是真实数据还是生成数据,我一直以为是尽可能判别不出呢。。。 2.训练过程 可以看到是先确定G,优化D,确定了优化D 阅读全文
posted @ 2020-06-15 23:02 lypbendlf 阅读(1642) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/v_july_v/article/details/8203674,介绍了很多距离 1.巴氏距离(Bhattacharyya Distance) 对于离散概率分布 p和q在同一域 X,它被定义为: 阅读全文
posted @ 2020-06-15 22:01 lypbendlf 阅读(677) 评论(0) 推荐(0) 编辑
摘要: https://www.infoq.cn/article/lteUOi30R4uEyy740Ht2,这个后半部分讲的不错! 1.Transformer Encoder (N=6 层,每层包括 2 个 sub-layers): 上面这个图真的讲的十分清楚了。 multi-head self-atten 阅读全文
posted @ 2020-06-15 21:10 lypbendlf 阅读(5719) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/77307258,这篇写的简直太好了,不愧是阿里啊! https://www.infoq.cn/article/lteUOi30R4uEyy740Ht2 1.attention计算分为三步 score-function:打分部分 normal 阅读全文
posted @ 2020-06-15 20:50 lypbendlf 阅读(398) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/tg229dvt5i93mxaq5a6u/article/details/78422216,这篇讲的非常好,解决了我的好多疑问。 1.机器翻译中计算权重和概率 其中aij是通过si-1和hj计算得到的,也就相当于qk,那么上式中的hj也就是v,在这里k=v 阅读全文
posted @ 2020-06-15 18:31 lypbendlf 阅读(3151) 评论(0) 推荐(1) 编辑