摘要: 目录加载数据处理缺失数据划分训练集和验证集合并数据集特征工程构建模型定义损失函数模型训练模型优化 加载数据 处理缺失数据 发现只有测试数据的Open有十一个空的(训练数据没有)。由于很少,我们直接将其找出,如下 cond = test['Open'].isnull() test[cond] 输出结果 阅读全文
posted @ 2025-02-19 22:41 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 首先来介绍一下可变对象和不可变对象 可变对象:整数,浮点数,字符串,元组等 不可变对象:列表,字典,集合等 然后看一下Python中内存分配的方式 执行x=1会发生什么?此时,内存会分配一个地址给1,1是一个整型对象,而x是一个引用(不是对象!),指向1所在的位置,并不占用实际的内存空间,用图像表示 阅读全文
posted @ 2025-02-19 22:07 最爱丁珰 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 之前我们学的RNN尝试先把整个句子全部都记下来,然后在进行翻译,所以可能出现一个问题,就是我们的模型没能够记住句子,这就是导致我们的BLEU分数下降。但是注意力机制让我们像人类一样翻译,也就是先翻译一部分,再翻译一部分,他和前者的BLEU分数曲线如下 蓝色 阅读全文
posted @ 2025-02-19 15:14 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 语音识别使用注意力机制,输入是不同时间帧的音频,如下 但是有一个问题,就是语音识别中,很可能输入的长度要比(我们想要的)输出的长度长的多,这个时候可以利用类似“填充”的技巧让两者的长度一样,如下(假设输入的音频说的话是the quick brown fox) 上图只是一个很简单的示例。现实中很可能使 阅读全文
posted @ 2025-02-19 15:09 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 我们利用GRU或者LSTM构建一个双向循环神经网络如下 然后预测的时候我们使用普通的RNN,但是这个RNN的输入取决于源句子的每一个单词的加权和。我们用y表示预测的句子,a表示输入的句子,那么也就是说我们定义\(\alpha^{\left< 阅读全文
posted @ 2025-02-19 14:40 最爱丁珰 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 这里从一堆概率的乘积转化为一堆log的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列,其实是为了惩罚短序列,在没有除以Lα的时候,模型更倾向于输出短的序列,这个操作叫做规范化,如果α=1,则叫做完全规范化 那么调整超参数束宽的时候我 阅读全文
posted @ 2025-02-19 09:53 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 对比一下语言模型和机器翻译的区别如下 最大的不同就是机器翻译有一个编码和解码的过程(语言模型直接使用零向量作为隐状态),可以理解为机器翻译时一个条件概率,条件就是输入的句子 阅读全文
posted @ 2025-02-19 09:33 最爱丁珰 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 编码器-解码器结构也可以用在图像识别的时候,比如我希望训练一个网络,输入一个图像,输出一个描述这个图像的文字,那么我们就可以先用卷积神经网络将图像进行编码(这一部分是编码器)得到一个向量,再将这个向量丢进循环神经网络中进行输出(这一部分是解码) 阅读全文
posted @ 2025-02-19 09:14 最爱丁珰 阅读(1) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示