随笔分类 - 图书
摘要:https://www.msra.cn/zh-cn/news/features/disentangled-self-attention-models
阅读全文
摘要:文章地址:https://zhuanlan.zhihu.com/p/94359189 笔记: 模型size=1/7; 推理耗时=1/9; 性能会轻微损失;GLUE下降3个点(BERT-PKD,DistilBERT下降7/8个点); 三个loss:embedding loss(输入,mes),tran
阅读全文
摘要:原文链接:https://blog.maiot.io/12-factors-of-ml-in-production/ 译文转自:机器之心 公众号 过去二十年来,我们对软件开发的理解有了大幅提升。其中一大部分原因是 DevOps 概念的出现及其在软件开发行业的广泛应用。 领先的软件公司都遵循着同样的模
阅读全文
摘要:sigmoid会衰减输入的影响(大input,小output),层数过多的话,导致输入对cost的影响几乎为0 ReLU是Maxout的特例,Maxout比ReLU更灵活 如何训练Maxout 等价这个网络(不同的样本更新不同的参数) 优化器AdaGrad RMSProp local minima(
阅读全文
摘要:https://www.bilibili.com/video/av94519857?p=13 唯一需要知道的就是链式法则:引入隐变量。 只需要计算每1个样本对w的偏微分,然后求和,就得到所有样本对w的偏微分了;(b也是同样的。) 先考虑1个神经元的情况:有两部分,forward pass和backw
阅读全文
摘要:https://www.bilibili.com/video/av94519857?p=12 如果没有参数,就是一个function set: 一连串矩阵运算 Loss function
阅读全文
摘要:https://www.bilibili.com/video/av94519857?p=10 https://www.bilibili.com/video/av94519857?p=11 表格最左一列和最上一行 如果用regression的方法去做classification,就会发生右图的情况。
阅读全文
摘要:https://www.bilibili.com/video/av94519857?p=8 https://www.bilibili.com/video/av94519857?p=9 总结 一次能够拿到所有训练数据,就是offline learning。 每次梯度反方向 Momentum(累加历史所
阅读全文
摘要:https://www.bilibili.com/video/av94519857?p=5 https://www.bilibili.com/video/av94519857?p=6 https://www.bilibili.com/video/av94519857?p=7 为什么SGD比GD收敛更
阅读全文
摘要:https://www.bilibili.com/video/av94519857?p=1 1. 课程介绍 分类、回归、生成 监督、无监督、强化学习 可解释AI、对抗攻击、网络压缩 异常检测(知道自己不知道) 迁移学习(训练和测试的数据分布不同) Meta Learning(学习如何学习, Lear
阅读全文
摘要:原文链接:http://nlp.town/blog/sentence-similarity/ 这篇文章对比了几种当时最流行的计算句子相似度的方法。这里是代码,代码超赞! 数据集 对比实验使用了两个测试集,一个STS Benchmark数据集,一个SICK data数据集。 方法 Baseline 表
阅读全文
摘要:原文链接:https://mp.weixin.qq.com/s/6VuovNdBGSSMq21OHfGe-w 摘要: NER的不同解码方式:CRF/指针网络/Biaffine 直接拿Transformer做NER不合适,可参考TENER 如何将实体词典融入到NER模型中?https://www.ac
阅读全文
摘要:原文链接:https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw 论文链接:https://arxiv.org/abs/1911.00068 带噪学习:https://github.com/subeeshvasu/Awesome-Learning-with
阅读全文
摘要:原文链接: https://mp.weixin.qq.com/s/UP1WjoJzDiGTBcMDoYZEUA 很多好文章!
阅读全文
摘要:原文链接:https://mp.weixin.qq.com/s/rf17rA0tBkD9elqF8nHhaw 本文介绍了NER的难点以及相应的解决方案,人机对话系统中的槽位标注也是NER任务,介绍的一些方法还是很有指导意义的。 难点1: 如何命名“命名实体” 何晗在《自然语言处理入门》一书中的总结如
阅读全文
摘要:原文链接:https://amitness.com/2020/02/back translation in google sheets/ 基于Google Sheets提供的翻译功能,通过反向翻译来做文本数据增强: GOOGLETRANSLATE(GOOGLETRANSLATE(A2, "en",
阅读全文
摘要:原文链接:https://amitness.com/2020/05/data augmentation for nlp/ 译文链接:https://blog.csdn.net/u011984148/article/details/106233312/ semantically invariant t
阅读全文
摘要:原文链接:http://blog.sina.com.cn/s/blog_7ad48fee01019xhg.html 1. 面对问题,解决问题:避免“手里拿着榔头,看什么都像钉子”; 2. 系统的解决问题:切忌成为“没头脑”的工程师; 3. 站在用户的角度看问题:NL2SQL,用户掌握受限的自然语言比
阅读全文
摘要:原文链接:https://mp.weixin.qq.com/s/YkVPtdWQkY 5hyoQW26UPA 如何构建基本的对话系统? 人格化的定义及如何部分实现人格化 Conversation AI主要包括三个方向 第一个方向是Task Completion,这也是业界做的比较多的,包括客服机器人
阅读全文
摘要:原文链接:https://mp.weixin.qq.com/s/n1ASECUOWH7UY73yDiVaUg 口语理解 基于语义解析的口语理解模式,是将用户请求解析为所包含语义信息的结构化表达。其中,最典型的结构化表达是意图(描述用户的核心诉求)+ 词槽(描述意图的关键信息)的模式。常用方法有基于知
阅读全文