摘要: [TOC] 下图展示了如何基于循环神经网络实现语言模型。基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量$H$,用$H_{t}$表示$H$在时间步$t$的值。$H_{t}$的计算基于$X_{t}$和$H_{t 1}$,可以认为$H_{t}$记录了到当前字符为止的序列 阅读全文
posted @ 2020-02-14 21:19 kaifeng_guan 阅读(700) 评论(0) 推荐(0) 编辑
摘要: [TOC] 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为$T$的词的序列$w_1, w_2, \ldots, w_T$,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: $$ P(w_1, w_2, \ldots, w_T). $$ 1. 语言模型 假设序列$w_1, w_2 阅读全文
posted @ 2020-02-14 20:46 kaifeng_guan 阅读(867) 评论(0) 推荐(1) 编辑
摘要: [TOC] 文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,下面介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 1. 读入文本 2. 分词 3. 建立字典,将每个词映射到一个唯一的索引(index) 4. 将文本从词的序列转换为索引的序列,方便输入模型 step1:读入文 阅读全文
posted @ 2020-02-14 19:22 kaifeng_guan 阅读(443) 评论(0) 推荐(0) 编辑
摘要: [TOC] 多层感知机的基本知识 深度学习主要关注多层模型。在这里,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。 隐藏层 下图展示了一个多层感知机的神经网络图,它含有一个隐藏层,该层中有5个隐藏单元。 表达公式 具体来说,给定一个小批量样本$ 阅读全文
posted @ 2020-02-14 19:06 kaifeng_guan 阅读(614) 评论(0) 推荐(0) 编辑
摘要: [TOC] softmax的基本概念 分类问题 一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。 将图像中的4像素分别记为$x_1, x_2, x_3, x_4$。 假设真实标签为狗、猫或者鸡,这些标签对应的离散值为$y_1, y_2, y_3$。 我们通常使用离散的数值来表示类别, 阅读全文
posted @ 2020-02-14 19:02 kaifeng_guan 阅读(758) 评论(0) 推荐(0) 编辑
摘要: [TOC] 新冠肺炎疫情蔓延之际,广大人民群众老实待在家就是做贡献!由 伯禹教育 、 Datawhale 、 和鲸科技 联合多家AI企业,让大家在家也能免费学习到优质的付费课程和有好的学习环境。感谢他们提供的教学内容,让本菜鸡能踏入深度学习的大门。致敬! 线性回归的基本要素 模型 为了简单起见,这里 阅读全文
posted @ 2020-02-14 18:57 kaifeng_guan 阅读(365) 评论(0) 推荐(0) 编辑