随笔分类 - NLP
摘要:**网址**:https://www.statmt.org/  其中下面这个是WMT每年的链接: 
阅读全文
摘要:深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的。 与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作,如将图像旋转或将其转换为灰度,并不会改变其语义。语义不变变换
阅读全文
摘要:MC4 是C4 的子集,MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语,但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言
阅读全文
摘要:**文本分词(Tokenization)是将一个文本序列分割成一个个单独的“词”或“标记”的过程**。在自然语言处理(NLP)中,文本分词是一个必要的预处理步骤,几乎所有的自然语言处理任务都需要对文本进行分词。 文本分词的目的是根据某种规则或算法,将文本序列分割成较小的单元,例如**单词、词组、标点
阅读全文
摘要:**词嵌入技术**主要是为了解决自然语言处理中的词表示问题,将词转化成机器容易理解的形式。 在早期的自然语言处理任务中,词通常被表示为离散的符号,例如"猫"就是一个符号,"狗"是另一个符号,这种表示方法无法捕捉词与词之间的语义关系。 **作用原理**词嵌入技术将词映射到连续的向量空间中,使得语义上相
阅读全文
摘要:1、一些成熟的库的封装,有其一系列的配套的模型,标记器,训练函数......。我们要是想使用对应的函数工具,我们首先要把自己的模型注册成人家的模型后,使用起来才不会有很多错。 所有尽量不要用各种封装的库进行拼接,可能会有很多坑。 2、数据处理是十分重要的,甚至占绝大部分时间。因为数据的质量对模型的性
阅读全文
摘要:在机器学习中,特征是指对象、人或现象的可测量和可量化的属性或特征。特征可以大致分为两类:稀疏特征和密集特征。  ##
阅读全文
摘要:迁移学习是指将**在一个任务上学到的知识和经验迁移到另一个相关任务上的机器学习方法**。它通过利用源领域的知识来改善目标领域的学习性能。==迁移学习的核心原理是通过共享知识和经验,从已解决的任务中获得的特征、表示或模型,来加速或改善新任务的学习过程==。 ### 常见的迁移学习方法 迁移学习的常见方
阅读全文
摘要:Softmax是一种数学函数,通常**用于将一组任意实数转换为表示概率分布的实数**。其本质上是一种归一化函数,==可以将一组任意的实数值转化为在[0, 1]之间的概率值,因为softmax将它们转换为0到1之间的值,所以它们可以被解释为概率==。**如果其中一个输入很小或为负,softmax将其变
阅读全文
摘要:人工智能已成为近年来最受关注的话题之一,由于神经网络的发展,曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成,人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理
阅读全文
摘要:在自然语言处理(NLP)中,**独立同分布是指一个数据集中的样本是从同一个总体分布中独立采样而来的**。这意味着数据集中的**每个样本都具有相同的概率分布**,并且这些样本之间是相互独立的,即**一个样本的出现不会影响其他样本的出现**。 例如,如果我们收集了一组用于训练文本分类器的新闻文章,并且这
阅读全文
摘要:### 什么是计算密集型任务 计算密集型任务指的是需要进行大量计算的任务,通常需要进行大量的数学运算、逻辑运算、数据处理、模拟等操作。这些任务通常需要更多的计算资源,比如更快的处理器、更多的内存、更快的存储设备等。 以下是一些常见的计算密集型任务: 1. 科学计算:如数值模拟、天体物理学、量子化学等
阅读全文
摘要:在深度学习中,通常使用 `epoch`、`train_steps` 和 `batch_size` 三个参数来控制模型的训练过程。它们之间的关系如下: - `epoch` 表示模型训练过程中的迭代次数,**即遍历整个训练数据集的次数**。一个 epoch 完成之后,相当于模型已经看到了整个训练集的数据
阅读全文
摘要:在我们学习一个小的项目的时候,我们别看我们有时候使用的是一个个封装好的库的模型,看起来很简单。我们可以从其中学到哪些东西呢?接下来我来总结一下。 1、对于一个NLP任务中,例如机器翻译,我们首先可以学习到机器翻译的整体过程,从数据选择->数据处理->模型选择->训练->模型评估。 2、数据的获取应该
阅读全文