2025 年 2月 19 日随笔档案 - 最爱丁珰

2025年2月19日

摘要：目录加载数据处理缺失数据划分训练集和验证集合并数据集特征工程构建模型定义损失函数模型训练模型优化加载数据处理缺失数据发现只有测试数据的Open有十一个空的（训练数据没有）。由于很少，我们直接将其找出，如下 cond = test['Open'].isnull() test[cond] 输出结果阅读全文

posted @ 2025-02-19 22:41 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

2.1.5 节省内存

摘要：首先来介绍一下可变对象和不可变对象可变对象：整数，浮点数，字符串，元组等不可变对象：列表，字典，集合等然后看一下Python中内存分配的方式执行x=1会发生什么？此时，内存会分配一个地址给1，1是一个整型对象，而x是一个引用（不是对象！），指向1所在的位置，并不占用实际的内存空间，用图像表示阅读全文

posted @ 2025-02-19 22:07 最爱丁珰阅读(4) 评论(0) 推荐(0) 编辑

184 注意力模型直觉

摘要：之前我们学的RNN尝试先把整个句子全部都记下来，然后在进行翻译，所以可能出现一个问题，就是我们的模型没能够记住句子，这就是导致我们的

BLEU

分数下降。但是注意力机制让我们像人类一样翻译，也就是先翻译一部分，再翻译一部分，他和前者的

BLEU

分数曲线如下蓝色阅读全文

posted @ 2025-02-19 15:14 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

186 语音识别

摘要：语音识别使用注意力机制，输入是不同时间帧的音频，如下但是有一个问题，就是语音识别中，很可能输入的长度要比（我们想要的）输出的长度长的多，这个时候可以利用类似“填充”的技巧让两者的长度一样，如下（假设输入的音频说的话是the quick brown fox）上图只是一个很简单的示例。现实中很可能使阅读全文

posted @ 2025-02-19 15:09 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

185 注意力模型

摘要：我们利用

GRU

或者

LSTM

构建一个双向循环神经网络如下然后预测的时候我们使用普通的RNN，但是这个RNN的输入取决于源句子的每一个单词的加权和。我们用

y

表示预测的句子，

a

表示输入的句子，那么也就是说我们定义\(\alpha^{\left< 阅读全文

posted @ 2025-02-19 14:40 最爱丁珰阅读(2) 评论(0) 推荐(0) 编辑

9.8.3 束搜索

摘要：这里从一堆概率的乘积转化为一堆

\log

的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列，其实是为了惩罚短序列，在没有除以

L^{α}

的时候，模型更倾向于输出短的序列，这个操作叫做规范化，如果

α = 1

，则叫做完全规范化那么调整超参数束宽的时候我阅读全文

posted @ 2025-02-19 09:53 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

179 选择最有可能的句子

摘要：对比一下语言模型和机器翻译的区别如下最大的不同就是机器翻译有一个编码和解码的过程（语言模型直接使用零向量作为隐状态），可以理解为机器翻译时一个条件概率，条件就是输入的句子阅读全文

posted @ 2025-02-19 09:33 最爱丁珰阅读(2) 评论(0) 推荐(0) 编辑

178 基础模型

摘要：编码器-解码器结构也可以用在图像识别的时候，比如我希望训练一个网络，输入一个图像，输出一个描述这个图像的文字，那么我们就可以先用卷积神经网络将图像进行编码（这一部分是编码器）得到一个向量，再将这个向量丢进循环神经网络中进行输出（这一部分是解码）阅读全文

posted @ 2025-02-19 09:14 最爱丁珰阅读(1) 评论(0) 推荐(0) 编辑

公告

昵称：最爱丁珰
园龄： 3年7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

最爱丁珰

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜