摘要:1. ERNIE 3.0的设计思路 自回归模型(Autoregressive Model, AR),通过估计一串文本序列的生成概率分布进行建模。一般而言,AR模型通过要么从前到后计算文本序列概率,要么从后向前计算文本序列概率,但不论哪种方式的建模,都是单向的。即在预测一个单词的时候无法同时看到该单词
阅读全文
摘要:1.介绍 Transformer网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出,并用于机器翻译任务,和以往网络架构有所区别的是,该网络架构中,编码器和解码器没有采用 RNN 或 CNN 等网络架构,而是采用完全依赖于注意力机制的架构
阅读全文
摘要:https://zhuanlan.zhihu.com/p/146114164
阅读全文
摘要:a = dict(((1,3),(0,-1),(4,21))) m = max(a, key=a.get) m 为什么这返回的是与最大值对应的键? 字典“a”是python中的一个可迭代的结构。当您迭代a时,您将循环使用字典中的键。例子: >>> a = dict(((1,3),(0,-1),(4,
阅读全文
摘要:引言 在读RoBERTa的论文时发现其用于一种叫作BPE(Byte Pair Encoding,字节对编码)的子词切分技术。今天就来了解一下这个技术。 一般对于英语这种语言,尽管词语之间已经有了空格分隔符,但是英语的单词往往具有复杂的词形变换,如果只是用空格进行切分,会导致数据稀疏问题。 传统的处理
阅读全文
摘要:前言 相信做中文NLP的朋友们,对哈工大和科大讯飞发布的一系列中文预训练模型(https://github.com/ymcui/) 并不陌生。它们在各个预训练原论文的基础上,基于中文语料,发布了诸如BERT、RoBERTa、ELECTRA、XLNet等模型,极大推动了中文NLP的发展。 不同的预训练
阅读全文
摘要:1. 前言 spanBERT是专门设计来更好地表示和预测文本的区间的,顾名思义它是BERT的一种扩展。见论文《SpanBERT: Improving Pre-training by Representing and Predicting Spans》,在本文中,作者提出了一个新的分词级别的预训练方法
阅读全文
摘要:前言 ERNIE 2.0见论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》,ERNIE2.0的结构与 ERNIE1.0 、BERT 一样,ERNIE2.0主要是从修改预训练任务来提升效果。 从BE
阅读全文
摘要:前言 ERNIE(知识增强语义表示模型),是百度发布一个预训练模型,论文全称及链接:《ERNIE: Enhanced Representation through Knowledge Integration》,ERNIE1.0采用与BERT一样的Transformer encoder架构,与BERT
阅读全文
摘要:一、简介 GLUE(General Language Understanding Evaluation)由来自纽约大学、华盛顿大学等机构创建的一个多任务的自然语言理解基准和分析平台。 GLUE共有九个任务,分别是CoLA、SST-2、MRPC、STS-B、QQP、MNLI、QNLI、RTE、WNLI
阅读全文
摘要:前言 ELECTRA,全称:Efficiently Learning an Encoder that Classifies Token Replacements Accurately,见论文《ELECTRA: Pre-training Text Encoders as Discriminators
阅读全文
摘要:前言 谷歌的研究者设计了一个ALBERT(A Lite BERT,ALBERT,精简的BERT),详情见论文《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》,参数量远远少于传统的 BERT 架
阅读全文
摘要:Subword介绍 分词器是做什么的? 机器无法理解文本。当我们将句子序列送入模型时,模型仅仅能看到一串字节,它无法知道一个词从哪里开始,到哪里结束,所以也不知道一个词是怎么组成的。所以,为了帮助机器理解文本,我们需要 将文本分成一个个小片段 然后将这些片段表示为一个向量作为模型的输入 同时,我们需
阅读全文
摘要:从字面上看,预训练模型(pre-training model)是先通过一批语料进行模型训练,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。这样的理解基本上是对的,预训练模型的训练和使用分别对应两个阶段:**预训练阶段(pre-training)**和 微调(fune-tuning)阶段。
阅读全文
摘要:前言 自回归模型(Autoregressive Model, AR),通过估计一串文本序列的生成概率分布进行建模。一般而言,AR模型通过要么从前到后计算文本序列概率,要么从后向前计算文本序列概率,但不论哪种方式的建模,都是单向的。即在预测一个单词的时候无法同时看到该单词位置两边的信息。假设给定的文本
阅读全文
摘要:前言 Transformer-XL来自于论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》,Transformer-XL是对Transformer的改进或变种,主要是解决长序列的问题,其中XL表示ex
阅读全文
摘要:题目 n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求,给这些孩子分发糖果: 每个孩子至少分配到 1 个糖果。 相邻两个孩子评分更高的孩子会获得更多的糖果。 请你给每个孩子分发糖果,计算并返回需要准备的最少糖果数目 。 示例 1: 输入:ratings
阅读全文
摘要:目录: 题目 单调栈法 动态规划法 题目 给定一个仅包含 0 和 1 、大小为 rows x cols 的二维二进制矩阵,找出只包含 1 的最大矩形,并返回其面积。 示例 1: 输入:matrix = [["1","0","1","0","0"],["1","0","1","1","1"],["1"
阅读全文
摘要:https://blog.csdn.net/m0_60346726/article/details/124062653
阅读全文
摘要:https://blog.csdn.net/anlian523/article/details/124731000
阅读全文
摘要:目录: 题目 暴力法 单调栈法 题目 给定 n个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 示例 1: 输入:heights = [2,1,5,6,2,3]输出:10解释:最大的矩形为图中红色区域,面积为 10 示例
阅读全文
摘要:目录: 题目 第一种方法:动态规划(使用额外的数组存储临时中间数据) 第二种方法:改进的动态规划(使用变量存储临时中间数据) 第三种方法:双指针排除移动扫描法 实现1 实现2 第四种方法:单调栈 题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。
阅读全文