上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 233 下一页
摘要: 今天参考这篇文章: https://zhuanlan.zhihu.com/p/71986772 transformer系列模型的进展,从BERT到GPT2再到XLNet。然而随着模型体积增大,线上性能也越来越差,所以决定开一条新线,开始follow模型压缩之模型蒸馏的故事线。 0. 名词解释 tea 阅读全文
posted @ 2022-03-07 12:02 blcblc 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 接上一篇文章: https://www.cnblogs.com/charlesblc/p/15965479.html 今天重点看这篇文章: https://mp.weixin.qq.com/s/tKfHq49heakvjM0EVQPgHw Distilled BiLSTM/BERT-PKD/Dist 阅读全文
posted @ 2022-03-06 21:57 blcblc 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 笔者第一次见到消融实验(Ablation experiment)这个概念是在论文《Faster R-CNN》中。消融实验类似于“控制变量法”。假设在某目标检测系统中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道这不错的效果是由于A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实 阅读全文
posted @ 2022-03-06 21:24 blcblc 阅读(1036) 评论(0) 推荐(0) 编辑
摘要: 参考这篇文章: https://zhuanlan.zhihu.com/p/24337627 有研究表明深度模型具有较大的信息参数冗余。因此我们可以通过一定的技术方法对复杂的模型进行去冗余压缩。现有的压缩方法主要可以下四类: 浅层网络:通过设计一个更浅(层数较少)结构更紧凑的网络来实现对复杂模型效果的 阅读全文
posted @ 2022-03-04 17:55 blcblc 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 前几天断更了,现在根据阅读的材料进行一些补充。 模型驱动 + 数据驱动 = 自然语言表示学习 sentiment classification entity extraction translation topic modeling 深度学习 = 表示学习 + 浅层学习 分布式表示:压缩、低维、稠密 阅读全文
posted @ 2022-03-04 17:18 blcblc 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 注意力机制中的软和硬 注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式,每次只关注与当前任务最相关的源域信息,使得信息的索取更为高效。 注意力机制已在语言模型、图像标注等诸多领域取得了突破进展。 注意力机制可分为软和硬两类: 软性注意力(Soft Attention)机制是指 阅读全文
posted @ 2022-03-04 16:49 blcblc 阅读(891) 评论(0) 推荐(0) 编辑
摘要: 参考这篇文章: https://mp.weixin.qq.com/s/NUhfzxGaOJx_pSvYAT-pnQ 阅读全文
posted @ 2022-02-28 17:06 blcblc 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 参考这篇文章: https://mp.weixin.qq.com/s/0WytNSBhqWeEWx1avXysiA 《搜索、推荐、广告中的曝光偏差问题》 最近在做的推荐版本里面也会针对曝光偏差进行优化。 机器学习本质上是在学习数据的分布, 其有效性的假设是模型 training 和 serving 阅读全文
posted @ 2022-02-27 22:25 blcblc 阅读(394) 评论(0) 推荐(0) 编辑
摘要: faiss: https://zhuanlan.zhihu.com/p/266589272 milvus: https://gitee.com/milvus-io/milvus catboost: https://zhuanlan.zhihu.com/p/102540344 阅读全文
posted @ 2022-02-25 19:49 blcblc 阅读(59) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2022-02-24 20:23 blcblc 阅读(0) 评论(0) 推荐(0) 编辑
上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 233 下一页