摘要: 概览 torch.utils.data主要是负责容纳数据集、数据打散、分批等操作。 这里面有三个概念:数据集dataset,抽样器sampler,数据加载器dataloader。其中第三个就是最终对外的接口,也是最重要的。 它们之间的关系是:首先需要根据源数据创建数据集dataset,然后根据dat 阅读全文
posted @ 2020-11-07 16:15 YoungF 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 对CUDA架构而言,主机端的内存可分为两种,一种是pageable memory,即可分页内存;另一种是pinned memory,即页锁定内存。 主机默认分配的是pageable memory,也就是说,根据操作系统的指示,主机虚拟内存(内存空间很小,所以内存只放部分数据,其余不重要的放在硬盘中, 阅读全文
posted @ 2020-11-06 17:40 YoungF 阅读(691) 评论(0) 推荐(0) 编辑
摘要: 第一篇 pytorch分布式训练1 在pytorch 1.6.0,torch.distributed中的功能可以分为三个主要的组件: Distributed Data-Parallel Training(DDP)是一个广泛采用的单程序多数据训练方法。使用DDP,模型会被复制到每个进程,然后每个模型副 阅读全文
posted @ 2020-11-06 16:57 YoungF 阅读(2730) 评论(0) 推荐(0) 编辑
摘要: award papers Beyond Accuracy: Behavioral Testing of NLP Models with CheckList Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Tra 阅读全文
posted @ 2020-10-21 11:03 YoungF 阅读(628) 评论(0) 推荐(0) 编辑
摘要: COLING 2020发布了今年的录用文章。 机构分类 Thunlp 这次没有关系抽取,一篇用HowNet做消歧,一篇少样本关系分类。 Try to Substitute: An Unsupervised Chinese Word Sense Disambiguation Method Based 阅读全文
posted @ 2020-10-21 10:36 YoungF 阅读(1073) 评论(0) 推荐(0) 编辑
摘要: 零 序 从三个部分介绍知识图谱(Knowledge Graph, KG),最后做总结: 基础篇:定义、简史、存储和查询; 进阶篇:构建、推理; 应用篇:NLP领域、CV领域; 信息篇:TOP团队、感想 一 基础篇 1.1 定义和简史 三元组是知识的最细粒度的表达形式,结构上一般由主语、谓语、宾语组成 阅读全文
posted @ 2020-10-19 12:10 YoungF 阅读(600) 评论(0) 推荐(0) 编辑
摘要: Word2Vec是Tomas Mikolov于2013年提出的文本向量化方法12,可以在大量文本语料上通过无监督训练学到词的分布式向量表示。和之前的分布式词向量学习模型相比,Word2Vec的模型不仅简单高效(计算量更少),在词相似度和词类比两个评测任务上都取得了更好的成绩,是一个划时代的作品。 T 阅读全文
posted @ 2020-10-17 00:20 YoungF 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 任务介绍 句子的依存结构表达了词与词之间的依赖关系,这种关系称依存关系。它是一种二元的非对称关系(binary asymmetric relation),从依存关系的支配者head指向从属者dependent。 依存句法分析旨在将输入的句子转化成依存分析树(或图),依存树中自上而下任意父子结点之间用 阅读全文
posted @ 2020-10-16 17:32 YoungF 阅读(1182) 评论(0) 推荐(0) 编辑
摘要: 回顾Skip-Gram1 Skip-Gram根据中心词来预测上下文词,其损失函数为: \[ \mathcal L_{SG} = \frac{1}{|V|}\sum_{t=1}^{|V|}\sum_{0 \lt |i| \leq c} \log p(w_{t+i}|w_t) \tag 1 \] 其中 阅读全文
posted @ 2020-09-28 01:42 YoungF 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 使用dict.fromkeys()创建词典的一个坑 创建词典有三种方法,第一是直接赋值,d = {1:2, 2:3};第二个是,通过构造方法,d = dict([(1, 2), (2, 3)]),第三个就是类方法dict.fromkeys()。 fromkeys(iterable[, value]允 阅读全文
posted @ 2020-08-12 15:16 YoungF 阅读(211) 评论(0) 推荐(0) 编辑