摘要:
一、词向量 词向量的表示方法: 1、one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0, 1 的位置对应该词在词典中的位置。但这种词表示有两个缺点:(1)容易受维数灾难的困扰,尤其是将其用于 Deep Lear 阅读全文
摘要:
切片: name[起始位置:终止位置:每取一个后加的步子的长度] name[::-1] 表示逆序 name[-1:0:-1] 会取不到第一个数 name[-1::-1] = name[::-1] 都会逆序 列表添加三种方式: name = [] 1.name.append('')添加一个元素 2.n 阅读全文
摘要:
终端窗口快捷键 复制:Ctrl + Shift + c 粘贴:Ctrl + Shift + v 如果在终端外层窗口复制内容,粘贴在终端:Shift + insert 查看U盘信息: sudo fdisk -l 文件指令 ls: ls -a :把隐藏的文件显示 ls -l 显示文件的详细信息 -lh 阅读全文
摘要:
恢复内容开始 恢复内容开始 首发于https://zhuanlan.zhihu.com/p/503739300 前言 本文主要介绍知识蒸馏原理,并以BERT为例,介绍两篇BERT蒸馏论文及代码,第一篇论文是在下游任务中使用BiLSTM对BERT蒸馏,第二篇是对Transformer蒸馏,即TinyB 阅读全文
摘要:
原文来自微信公众号 深度学习推荐系统(一) 协同过滤 定义 协同过滤 就是协同大家的反馈、评价和意见一起对海量的信息进行过滤,从中筛选出目标用户可能感兴趣的信息的推荐过程。 商品推荐的例子: 电商网站的商品库里一共有四件商品 用户X访问该电商网站,电商网站的推荐系统需要决定是否推荐电视机给用户X 将 阅读全文
摘要:
主流的序列到序列模型都是基于含有encoder和decoder的复杂的循环或者卷积网络。而性能最好的模型在encoder和decoder之间加了attentnion机制。本文提出一种新的网络结构,摒弃了循环和卷积网络,仅基于attention机制。 self-attention是一种attentio 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/74547224 摘要 BERT是“Bidirectional Encoder Representations from Transformers"的简称,顾名思义,它使用transformer联合上下文学习文本的双向表示。在这个表示的基础上 阅读全文
摘要:
预训练 先在某个任务(训练集A或者B)进行预先训练,即先在这个任务(训练集A或者B)学习网络参数,然后存起来以备后用。当我们在面临第三个任务时,网络可以采取相同的结构,在较浅的几层,网络参数可以直接加载训练集A或者B训练好的参数,其他高层仍然随机初始化。底层参数有两种方式: frozen ,即预训练 阅读全文
摘要:
命名实体识别 1. 问题定义 广义的命名实体识别是指识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、日期、货币和百分比)命名实体。但实际应用中不只是识别上述所说的实体类,还包括其他自定义的实体,如角色、菜名等等。 2. 解决方式 命名实体识别其本质是一个序列标注问题, 阅读全文
摘要:
softmax_cross_entropy_with_logits与sparse_softmax_cross_entropy_with_logits都是对最后的预测结果进行softmax然后求交叉熵 区别在于输入的label形式 sparse_softmax_cross_entropy_with_l 阅读全文
摘要:
参考: 1、https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html 阅读全文
摘要:
目录: 1、RNN 2、GRU 3、LSTM 一、RNN 1、RNN结构图如下所示: 其中: $a^{(t)} = \boldsymbol{W}h^{t-1} + \boldsymbol{W}_{e}x^{t} + \mathbf{b}$ $h^{t} = f(a^{t})$, f 是激励函数,si 阅读全文
摘要:
深度学习中的Normalization 引言 normalization中文意思是标准化,标准化就是对一组数据集合将其变成均值为0,方差为1的过程。在深度网络中主要有两种实体:神经元和相邻两层相连的权重边。根据规范化对象的不同,可以分为两类:一类是对L层网络的输出值进行Normalization的操 阅读全文