随笔分类 -  图书

摘要:https://www.msra.cn/zh-cn/news/features/disentangled-self-attention-models 阅读全文
posted @ 2021-10-28 20:48 ZH奶酪 阅读(89) 评论(0) 推荐(0) 编辑
摘要:文章地址:https://zhuanlan.zhihu.com/p/94359189 笔记: 模型size=1/7; 推理耗时=1/9; 性能会轻微损失;GLUE下降3个点(BERT-PKD,DistilBERT下降7/8个点); 三个loss:embedding loss(输入,mes),tran 阅读全文
posted @ 2021-03-03 10:33 ZH奶酪 阅读(265) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://blog.maiot.io/12-factors-of-ml-in-production/ 译文转自:机器之心 公众号 过去二十年来,我们对软件开发的理解有了大幅提升。其中一大部分原因是 DevOps 概念的出现及其在软件开发行业的广泛应用。 领先的软件公司都遵循着同样的模 阅读全文
posted @ 2020-12-04 10:42 ZH奶酪 阅读(160) 评论(0) 推荐(0) 编辑
摘要:sigmoid会衰减输入的影响(大input,小output),层数过多的话,导致输入对cost的影响几乎为0 ReLU是Maxout的特例,Maxout比ReLU更灵活 如何训练Maxout 等价这个网络(不同的样本更新不同的参数) 优化器AdaGrad RMSProp local minima( 阅读全文
posted @ 2020-09-05 13:14 ZH奶酪 阅读(195) 评论(0) 推荐(0) 编辑
摘要:https://www.bilibili.com/video/av94519857?p=13 唯一需要知道的就是链式法则:引入隐变量。 只需要计算每1个样本对w的偏微分,然后求和,就得到所有样本对w的偏微分了;(b也是同样的。) 先考虑1个神经元的情况:有两部分,forward pass和backw 阅读全文
posted @ 2020-08-22 22:46 ZH奶酪 阅读(414) 评论(0) 推荐(0) 编辑
摘要:https://www.bilibili.com/video/av94519857?p=12 如果没有参数,就是一个function set: 一连串矩阵运算 Loss function 阅读全文
posted @ 2020-08-22 22:45 ZH奶酪 阅读(248) 评论(0) 推荐(0) 编辑
摘要:https://www.bilibili.com/video/av94519857?p=10 https://www.bilibili.com/video/av94519857?p=11 表格最左一列和最上一行 如果用regression的方法去做classification,就会发生右图的情况。 阅读全文
posted @ 2020-08-22 18:33 ZH奶酪 阅读(585) 评论(0) 推荐(0) 编辑
摘要:https://www.bilibili.com/video/av94519857?p=8 https://www.bilibili.com/video/av94519857?p=9 总结 一次能够拿到所有训练数据,就是offline learning。 每次梯度反方向 Momentum(累加历史所 阅读全文
posted @ 2020-08-22 16:58 ZH奶酪 阅读(549) 评论(0) 推荐(0) 编辑
摘要:https://www.bilibili.com/video/av94519857?p=5 https://www.bilibili.com/video/av94519857?p=6 https://www.bilibili.com/video/av94519857?p=7 为什么SGD比GD收敛更 阅读全文
posted @ 2020-08-22 12:19 ZH奶酪 阅读(158) 评论(0) 推荐(0) 编辑
摘要:https://www.bilibili.com/video/av94519857?p=1 1. 课程介绍 分类、回归、生成 监督、无监督、强化学习 可解释AI、对抗攻击、网络压缩 异常检测(知道自己不知道) 迁移学习(训练和测试的数据分布不同) Meta Learning(学习如何学习, Lear 阅读全文
posted @ 2020-08-22 12:15 ZH奶酪 阅读(400) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://nlp.town/blog/sentence-similarity/ 这篇文章对比了几种当时最流行的计算句子相似度的方法。这里是代码,代码超赞! 数据集 对比实验使用了两个测试集,一个STS Benchmark数据集,一个SICK data数据集。 方法 Baseline 表 阅读全文
posted @ 2020-07-09 10:46 ZH奶酪 阅读(396) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/6VuovNdBGSSMq21OHfGe-w 摘要: NER的不同解码方式:CRF/指针网络/Biaffine 直接拿Transformer做NER不合适,可参考TENER 如何将实体词典融入到NER模型中?https://www.ac 阅读全文
posted @ 2020-07-05 11:51 ZH奶酪 阅读(1194) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw 论文链接:https://arxiv.org/abs/1911.00068 带噪学习:https://github.com/subeeshvasu/Awesome-Learning-with 阅读全文
posted @ 2020-07-05 11:25 ZH奶酪 阅读(2285) 评论(0) 推荐(0) 编辑
摘要:原文链接: https://mp.weixin.qq.com/s/UP1WjoJzDiGTBcMDoYZEUA 很多好文章! 阅读全文
posted @ 2020-05-23 18:37 ZH奶酪 阅读(186) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/rf17rA0tBkD9elqF8nHhaw 本文介绍了NER的难点以及相应的解决方案,人机对话系统中的槽位标注也是NER任务,介绍的一些方法还是很有指导意义的。 难点1: 如何命名“命名实体” 何晗在《自然语言处理入门》一书中的总结如 阅读全文
posted @ 2020-05-23 18:34 ZH奶酪 阅读(794) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://amitness.com/2020/02/back translation in google sheets/ 基于Google Sheets提供的翻译功能,通过反向翻译来做文本数据增强: GOOGLETRANSLATE(GOOGLETRANSLATE(A2, "en", 阅读全文
posted @ 2020-05-23 17:57 ZH奶酪 阅读(254) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://amitness.com/2020/05/data augmentation for nlp/ 译文链接:https://blog.csdn.net/u011984148/article/details/106233312/ semantically invariant t 阅读全文
posted @ 2020-05-23 10:36 ZH奶酪 阅读(1763) 评论(1) 推荐(0) 编辑
摘要:原文链接:http://blog.sina.com.cn/s/blog_7ad48fee01019xhg.html 1. 面对问题,解决问题:避免“手里拿着榔头,看什么都像钉子”; 2. 系统的解决问题:切忌成为“没头脑”的工程师; 3. 站在用户的角度看问题:NL2SQL,用户掌握受限的自然语言比 阅读全文
posted @ 2020-05-22 10:26 ZH奶酪 阅读(232) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/YkVPtdWQkY 5hyoQW26UPA 如何构建基本的对话系统? 人格化的定义及如何部分实现人格化 Conversation AI主要包括三个方向 第一个方向是Task Completion,这也是业界做的比较多的,包括客服机器人 阅读全文
posted @ 2020-05-10 20:31 ZH奶酪 阅读(592) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/n1ASECUOWH7UY73yDiVaUg 口语理解 基于语义解析的口语理解模式,是将用户请求解析为所包含语义信息的结构化表达。其中,最典型的结构化表达是意图(描述用户的核心诉求)+ 词槽(描述意图的关键信息)的模式。常用方法有基于知 阅读全文
posted @ 2020-05-10 19:29 ZH奶酪 阅读(506) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示