wwwwb - 博客园

2019年9月5日

摘要： 1.离散采样不可导问题，使用gumbel采样方式将不可导部分拉出计算图细节做法https://www.cnblogs.com/initial-h/p/9468974.html 2.关于NLLloss和cross entropy loss 的关系和区别 cross中是计算概率模型输出的概率p和真实的阅读全文

posted @ 2019-09-05 10:56 wwwwb 阅读(111) 评论(0) 推荐(0)

MT框架中avg_checkpoint的做法

摘要： 1.在opennmt框架代码中ensemble的做法是在opennmt/utils/checkpoint.py 对模型中全部参数进行平均，平均后创建新的checkpoint 2.在nmt中https://github.com/tensorflow/nmt tensorflow的一个框架（工程师个人框阅读全文

posted @ 2019-09-05 09:34 wwwwb 阅读(729) 评论(0) 推荐(0)

2019年8月30日

知识蒸馏（Knowledge Distilling）

摘要： 1.参考资料，一个很好的KD的资料list https://github.com/dkozlov/awesome-knowledge-distillation 一个中文的相关资料https://www.zhihu.com/question/333196499/answer/738197683 一些阅读全文

posted @ 2019-08-30 17:21 wwwwb 阅读(923) 评论(0) 推荐(0)

模型集成-ensamble

摘要： 1.综述资料集合模型是由于有较高的方差产生，集成多个模型可以减小方差，为了使模型有集成有效，需要每一模型都需要是很好的模型但是需要犯不同的错误，结果会更鲁棒一些主要参考内容https://machinelearningmastery.com/stacking-ensemble-for-deep 阅读全文

posted @ 2019-08-30 17:12 wwwwb 阅读(821) 评论(0) 推荐(0)

2019年8月21日

代码-动态规划

摘要： 1.动态规划三角形问题阅读全文

posted @ 2019-08-21 15:28 wwwwb 阅读(434) 评论(0) 推荐(0)

王博wb

公告