摘要:
原地址 前言 在做文本挖掘的时候,首先要做的预处理就是分词。 英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。 而中文由于没有空格,分词就是一个需要专门去解决的问题了。 无论是英文还是中文,分词的原理都是类似的, 阅读全文
2022年7月9日
2022年7月7日
摘要:
原地址 引言 分词是自然语言处理中的基本操作,今天我们就来看一下常用的分词算法及实现。 最大匹配算法 所谓的最大匹配指的是匹配最长的单词,通常会指定一个最大长度。根据搜索顺序的不同,主要有: 前向最大匹配算法、 后向最大匹配算法、 双向匹配算法。 前向最大匹配算法 所有的分词算法都是基于词典的,假设 阅读全文
2022年7月6日
摘要:
题目 给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串,则返回空字符串 "" 。 注意: 对于 t 中重复字符,我们寻找的子字符串中该字符数量必须不少于 t 中该字符数量。 如果 s 中存在这样的子串,我们保证它是唯一的答案 阅读全文
2022年7月4日
摘要:
题目 给定一个字符串 s 和一些 长度相同 的单词 words 。找出 s 中恰好可以由 words 中所有单词串联形成的子串的起始位置。 注意子串要与 words 中的单词完全匹配,中间不能有其他字符 ,但不需要考虑 words 中单词串联的顺序。 示例 1: 输入:s = "barfoothef 阅读全文
2022年7月2日
摘要:
李宏毅自然语言处理——GPT3简介 本文原地址:https://blog.csdn.net/yjw123456/article/details/119705148 引言 今天来介绍下牛逼的GPT-31,它是一个拥有1750亿参数的巨大的自回归(autoregressive)语言模型。 GPT-3简介 阅读全文
摘要:
原地址 论文地址:《Language Models are Few-Shot Learners》 Abstract 提出问题:最近的许多研究都表明pre-train模型搭配下游任务fine-tune在许多情况下效果显著,但是微调过程需要大量的样本。这一框架不符合人类的习惯,人类只需要少量的示例或说明 阅读全文
摘要:
前言 GPT2是OPen AI发布的一个预训练语言模型,见论文《Language Models are Unsupervised Multitask Learners》,GPT-2在文本生成上有着惊艳的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们的预期。仅从模型架构而言,GPT-2 并没 阅读全文
2022年7月1日
摘要:
BERT介绍 BERT(Bidirectional Encoder Representation from Transformers)是2018年10月由Google AI研究院提出的一种预训练模型,该模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类 阅读全文
摘要:
1. 介绍 2018 年 6 月,OpenAI 发表论文介绍了自己的语言模型 GPT, GPT 是“Generative Pre-Training”的简称, 它基于 Transformer 架构, GPT模型先在大规模语料上进行无监督预训练、 再在小得多的有监督数据集上为具体任务进行精细调节(fin 阅读全文