随笔分类 - 深度学习
摘要:12.1. 编译器和解释器 命令式编程(imperative programming)和符号式编程(symbolic programming) 单线程的Python解释器使得,Python将很难让所有的GPU都保持忙碌。可以通过将Sequential替换为HybridSequential来解决代码中
阅读全文
摘要:两种方法:保存和加载参数 和 保存加载整个模型 保存和加载参数 #保存 torch.save(model.state_dict,PATH) #PATH推荐格式为.pt #加载 model=TheModelClass(*args, **kwargs ) model.load_state_dict(to
阅读全文
摘要:优化算法对于深度学习非常重要。一方面,训练复杂的深度学习模型可能需要数小时、几天甚至数周。优化算法的性能直接影响模型的训练效率。另一方面,了解不同优化算法的原则及其超参数的作用将使我们能够以有针对性的方式调整超参数,以提高深度学习模型的性能。 11.1. 优化和深度学习 对于深度学习问题,我们通常会
阅读全文
摘要:10.1. 注意力提示 考虑一个相对简单的状况, 即只使用非自主性提示。 要想将选择偏向于感官输入, 则可以简单地使用参数化的全连接层, 甚至是非参数化的最大汇聚层或平均汇聚层。 在注意力机制的背景下,自主性提示被称为查询(query)。 给定任何查询,注意力机制通过注意力汇聚(attention
阅读全文
摘要:例如,循环神经网络在实践中一个常见问题是数值不稳定性。 尽管我们已经应用了梯度裁剪等技巧来缓解这个问题, 但是仍需要通过设计更复杂的序列模型来进一步处理它。 具体来说,我们将引入两个广泛使用的网络, 即门控循环单元(gated recurrent units,GRU)和 长短期记忆网络(long s
阅读全文
摘要:本章的循环神经网络(recurrent neural network,RNN)可以更好地处理序列信息。 循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而可以确定当前的输出。许多使用循环网络的例子都是基于文本数据的,因此我们将在本章中重点介绍语言模型。 8.1. 序列模型 为了实现对下一时
阅读全文
摘要:之前没了解过硬件,更没听过开发板。但最近可能会用到,所以看了一些视频和资料,简单梳理一下: 开发板(demoboard)是用于嵌入式系统开发的电路板,Arduino编程语言及芯片,树莓派的操作系统,正点原子以及昇腾的生态等等都很出名。之前厂家面向企业生产,最近好多个人用户也开始使用。开发板与个人计算
阅读全文
摘要:RuntimeError: Given input size: (128x1x1). Calculated output size: (128x0x0). Output size is too small 问题原因: 在池化层之前,我的图像就变成1x1的了,使用池化层就出错了
阅读全文
摘要:本地电脑木得GPU,自己CPU训练模型贼慢,于是打算来colab训练 我本来是这样导入 !pip install d2l 结果导入很慢,等待时间过长,就去网上搜了搜 !pip install d2l==0.14 加了版本号就变得很快了。但是似乎某些函数是在0.16里才有 !pip install d
阅读全文
摘要:conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512)) 7.1. 深度卷积神经网络(AlexNet) 更多的数据和更高性能的硬件使得深度卷积神经网络在2012年出现突破。 2012年,AlexNet横空出世,首次证明了学习到的特征可
阅读全文
摘要:6.1从全连接层到卷积层 之前的多层感知机,仅仅通过将图像数据展平成一维向量而忽略了每个图像的空间结构信息。 卷积神经网络则改善了这一点,且卷积神经网络需要的参数少于全连接架构的网络同时卷积也很容易用GPU并行计算,因此更适合于高效的进行计算。 练习 1假设卷积层 (6.1.3)覆盖的局部区域Δ=0
阅读全文
摘要:2.1数据操作笔记 PyTorch和TensorFlow中的Tensor类型可做为张量使用,可支持GPU操作和自动微分。 广播机制:对不同形状的张量可使用广播机制进行运算。 为节省内存,可使用 X[:] = X + Y或X += Y来减少操作的内存开销。 2.1练习 1运行本节中的代码。将本节中的条
阅读全文
摘要:Jupyter Notebook运行中内核挂掉了 有人说可能是版本冲突,由于我的都是最新版本,因此更新版本并未解决该问题。 最后发现有人通过这行代码解决了 import os os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE" 我也试了试,发现...... 我加了这一
阅读全文
摘要:3.1笔记 线性回归假设y与多个x之间的关系是线性的,且噪声符合正态分布。 线性模型则是对输入特征做仿射变换Y^ = W * X+b,其中Y^为预测值,我们希望预测值与真实值Y的误差最小。那如何衡量这个误差呢,使用损失函数来量化。 (在线性模型中,一般采用最小二乘的损失函数) 这样,将问题转化为关注
阅读全文
摘要:入门深度学习,从李沐老师的动手学开始 以此为目录,记录学习感悟与课后练习。 2、预备知识 3、线性神经网络 4、多层感知机 5、深度学习计算 6、卷积神经网络 7、现代卷积神经网络 8、循环神经网络 9,现代循环神经网络 10, 注意力机制 11,优化算法 12,计算性能 13. 计算机视觉 AI-
阅读全文
摘要:4.1笔记 在线性网络中,任何特征的增大都会导致模型输出的增大或减小。这种想法在某些情况下不在适用,例如x和y并非线性关系、或者是x和y并不具有单调性、以及x1、x2会对y产生交互作用时。 为解决该问题,有人提出在网络中加入隐藏层,来克服线性模型的限制,使其能够处理更多变的函数关系。为防止多个隐藏层
阅读全文