随笔分类 -  深度学习

摘要:为了更好的阅读体验,请点击这里 由于发不出论文,所以找点冷门方向做一做。从汉语比喻开始。 读完这篇论文之后我觉得 COLING 这方向我上我也行(ε=ε=ε=┏(゜ロ゜;)┛ 题目:CM-Gen: A Neural Framework for Chinese Metaphor Generation 阅读全文
posted @ 2023-10-11 16:09 bringlu 阅读(152) 评论(0) 推荐(0) 编辑
摘要:为了更好的阅读体验,请点击这里 device_map 以下内容参考 Huggingface Accelerate文档:超大模型推理方法 在 HuggingFace 中有个重要的关键字是 device_map,它可以简单控制模型层部署在哪些硬件上。 设置参数 device_map="auto",Acc 阅读全文
posted @ 2023-09-08 09:46 bringlu 阅读(12648) 评论(0) 推荐(2) 编辑
摘要:为了更好的阅读体验,请点击这里 12.1 编译器和解释器 原书主要关注的是命令式编程(imperative programming)。Python 是一种解释性语言,因此没有编译器给代码优化,代码会跑得很慢。 12.1.1 符号式编程 考虑另一种选择符号式编程(symbolic programmin 阅读全文
posted @ 2023-05-04 22:21 bringlu 阅读(657) 评论(0) 推荐(0) 编辑
摘要:为了更好的阅读体验,请点击这里 由于本章内容比较少且以后很显然会经常回来翻,因此会写得比较详细。 5.1 层和块 事实证明,研究讨论“比单个层大”但“比整个模型小”的组件更有价值。例如,在计算机视觉中广泛流行的ResNet-152 架构就有数百层,这些层是由层组(groups of layers)的 阅读全文
posted @ 2023-04-27 19:00 bringlu 阅读(761) 评论(0) 推荐(0) 编辑
摘要:为了更好的阅读体验,请点击这里 4.1 多层感知机 4.1.1 隐藏层 由于仿射变换中的线性是一个很强的假设,因此导致了线性模型可能会不适用。线性意味着单调假设:任何特征的增大都会导致模型输出的增大或者模型输出的减小。 但是违反单调性的例子比比皆是。除此之外,分类任务中,仅依托像素强度分类也很不合理 阅读全文
posted @ 2023-04-25 19:44 bringlu 阅读(1220) 评论(0) 推荐(1) 编辑
摘要:这章感觉没什么需要特别记住的东西,感觉忘了回来翻一翻代码就好。 3.1 线性回归 3.1.1 线性回归的基本元素 1. 线性模型 x(i) 是一个列向量,表示第 i 个样本。用符号标识的矩阵 $\boldsymbol{X} \in \mathbb{R}^{n\ 阅读全文
posted @ 2023-04-09 15:29 bringlu 阅读(269) 评论(5) 推荐(0) 编辑
摘要:2.4 微积分 2.4.3 梯度 梯度是一个多元函数所有变量偏导数的连接。具体而言:设函数 f:RnR 的输入是一个 n 维向量 x=[x1,x2,,xn]T,输出是一 阅读全文
posted @ 2023-04-03 19:44 bringlu 阅读(96) 评论(0) 推荐(0) 编辑
摘要:论文:LLaMA: Open and Efficient Foundation Language Models 模型代码:https://github.com/facebookresearch/llama/blob/main/llama/model.py 你也可以打开之前的目录看完整代码。 摘要、介 阅读全文
posted @ 2023-03-28 20:05 bringlu 阅读(2224) 评论(0) 推荐(0) 编辑
摘要:LLaMA 最近开源,分别开源了 7e9, 1.3e10, 3.3e10, 6.5e10 四个参数量的模型。但是这里有意思的是,他们管自己的模型称为 smaller models。 Google 推出了 22B 的 ViT 1. Efficient(PEFT) 简要概括 更高效,哪里慢就让它快起来 阅读全文
posted @ 2023-03-25 16:12 bringlu 阅读(988) 评论(0) 推荐(0) 编辑
摘要:希望您们先看过书,再来看本 blog,否则可能会看不懂,原因是我只写书上没写或者很新奇的东西。 先引个 torch 包 import torch 2.1 数据操作 2.1.1 入门 x.numel() 会返回张量中元素的总数。 torch.tensor() 与 torch.Tensor() 的区别 阅读全文
posted @ 2023-03-21 20:59 bringlu 阅读(134) 评论(0) 推荐(0) 编辑
摘要:ViT 概括 论文题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 作者来自 Google 亮点: 一 阅读全文
posted @ 2023-03-19 15:53 bringlu 阅读(334) 评论(0) 推荐(0) 编辑
摘要:开场 多模态串讲的上篇是比较传统的多模态任务 多模态最后的模态交互很重要 传统的缺点是都用了预训练的目标检测器,训练和部署都很困难。 ViLT 把预训练的目标检测器换成了一层的 Patch Embedding。 因此容易比不过 c 类的方法 ViLT 训练很慢 认为未来是 c 类的模型结构 Loss 阅读全文
posted @ 2023-03-19 08:36 bringlu 阅读(2898) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示
主题色彩