摘要:
简介 hook是钩子,主要作用是不修改主代码,能通过挂载钩子实现额外功能。 pytorch中,主体就是forward和backward,而额外的功能就是对模型的变量进行操作,如“提取”特征图,“提取”非叶子张量的梯度,修改张量梯度等等。hook功能即不必改变网络输入输出的结构,就能方便地获取、改变网 阅读全文
摘要:
给定一个数据流,数据流长度N很大,且N直到处理完所有数据之前都不可知,请问如何在只遍历一遍数据(O(N))的情况下,能够随机选取出m个不重复的数据。 这个场景强调了3件事: 数据流长度N很大且不可知,所以不能一次性存入内存。 时间复杂度为O(N)。 随机选取m个数,每个数被选中的概率为m/N。 面试 阅读全文
摘要:
小菜鸡lz自己记录一下transformer中的维度变换。。。 部分名词简写:self- attention(SAN)、residual(RS) 对于输入input: [batch_size , max_sen_len]词嵌入矩阵vocab_matrix dim: [vocab_size , emb 阅读全文
摘要:
根据Survey of Data-Selection Methods in Statistical Machine Translation的总结,MT中的数据选择分类图如下: 使用场景 数据使用的场景决定了选择什么样的数据,及该方法要解决什么问题。 Improve Quality:Domain Im 阅读全文
摘要:
Curriculum Learning主要有两个关键:①训练样本的难度定义;②训练的策略 本文总结一下看过的不同论文中出现的训练策略或者样本难度,主要与NMT相关。 持续更新。。。 2020之前的论文 Curriculum Learning 在shape recognition任务上是达到switc 阅读全文
摘要:
##1.linux下安装crf工具包 先下载CRF++-0.58.tar.xz,在Linux环境下安装CRF工具包 https://github.com/taku910/crfpp 解压到某一个目录下面 打开控制台,切换到解压目录 依次输入命令: ./configure sudo make sudo 阅读全文
摘要:
区分几种解码策略Beam Search, Random Sampling, Top-K, and Nucleus 阅读全文
摘要:
跑一个使用jieba分词的脚本出现问题 报错如下: Building prefix dict from the default dictionary ... Loading model from cache /tmp/jieba.cache Dumping model to file cache / 阅读全文
摘要:
pytorch的并行分为模型并行、数据并行 源码详见我的github: TextCNN_parallel,个人总结,还有很多地方理解不到位,求轻喷。 左侧模型并行:是网络太大,一张卡存不了,那么拆分,然后进行模型并行训练。 右侧数据并行:多个显卡同时采用数据训练网络的副本。 模型并行 数据并行 数据 阅读全文
摘要:
之前安装anaconda,会自动安装jupyer笔记本,但是本人从来没有用过,近期查看github上的一些教程时,发现很多文件都是.ipynb为后缀的jupyter文件,于是自己准备琢磨一下把环境换成已有的py环境(我自己设置的python环境中有一些之前安好的包),毕竟jupyer的界面比ipyt 阅读全文