朴素贝叶斯

(转载)文本挖掘的分词原理

摘要：原地址前言在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，阅读全文

posted @ 2022-07-09 08:40 朴素贝叶斯阅读(58) 评论(0) 推荐(0) 编辑

(转载)自然语言处理——分词算法

摘要：原地址引言分词是自然语言处理中的基本操作，今天我们就来看一下常用的分词算法及实现。最大匹配算法所谓的最大匹配指的是匹配最长的单词，通常会指定一个最大长度。根据搜索顺序的不同，主要有：前向最大匹配算法、后向最大匹配算法、双向匹配算法。前向最大匹配算法所有的分词算法都是基于词典的，假设阅读全文

posted @ 2022-07-07 22:12 朴素贝叶斯阅读(173) 评论(0) 推荐(0) 编辑

76. 最小覆盖子串

摘要：题目给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串，则返回空字符串 "" 。注意：对于 t 中重复字符，我们寻找的子字符串中该字符数量必须不少于 t 中该字符数量。如果 s 中存在这样的子串，我们保证它是唯一的答案阅读全文

posted @ 2022-07-06 19:27 朴素贝叶斯阅读(30) 评论(0) 推荐(0) 编辑

30. 串联所有单词的子串

摘要：题目给定一个字符串 s 和一些长度相同的单词 words 。找出 s 中恰好可以由 words 中所有单词串联形成的子串的起始位置。注意子串要与 words 中的单词完全匹配，中间不能有其他字符，但不需要考虑 words 中单词串联的顺序。示例 1：输入：s = "barfoothef 阅读全文

posted @ 2022-07-04 21:50 朴素贝叶斯阅读(33) 评论(0) 推荐(0) 编辑

(转载)李宏毅自然语言处理——GPT3简介

摘要：李宏毅自然语言处理——GPT3简介本文原地址：https://blog.csdn.net/yjw123456/article/details/119705148 引言今天来介绍下牛逼的GPT-31，它是一个拥有1750亿参数的巨大的自回归(autoregressive)语言模型。 GPT-3简介阅读全文

posted @ 2022-07-02 22:49 朴素贝叶斯阅读(1537) 评论(0) 推荐(0) 编辑

(转载)GPT-3阅读笔记：Language Models are Few-Shot Learners

摘要：原地址论文地址:《Language Models are Few-Shot Learners》 Abstract 提出问题：最近的许多研究都表明pre-train模型搭配下游任务fine-tune在许多情况下效果显著，但是微调过程需要大量的样本。这一框架不符合人类的习惯，人类只需要少量的示例或说明阅读全文

posted @ 2022-07-02 19:58 朴素贝叶斯阅读(1100) 评论(0) 推荐(0) 编辑

GPT2

摘要：前言 GPT2是OPen AI发布的一个预训练语言模型，见论文《Language Models are Unsupervised Multitask Learners》，GPT-2在文本生成上有着惊艳的表现，其生成的文本在上下文连贯性和情感表达上都超过了人们的预期。仅从模型架构而言，GPT-2 并没阅读全文

posted @ 2022-07-02 16:24 朴素贝叶斯阅读(2112) 评论(0) 推荐(0) 编辑

BERT

摘要： BERT介绍 BERT(Bidirectional Encoder Representation from Transformers)是2018年10月由Google AI研究院提出的一种预训练模型，该模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类阅读全文

posted @ 2022-07-01 23:02 朴素贝叶斯阅读(427) 评论(0) 推荐(0) 编辑

GPT

摘要： 1. 介绍 2018 年 6 月，OpenAI 发表论文介绍了自己的语言模型 GPT， GPT 是“Generative Pre-Training”的简称，它基于 Transformer 架构， GPT模型先在大规模语料上进行无监督预训练、再在小得多的有监督数据集上为具体任务进行精细调节（fin 阅读全文

posted @ 2022-07-01 21:39 朴素贝叶斯阅读(2113) 评论(0) 推荐(0) 编辑

ELMo

摘要： 1.前言 Deep contextualized(情境的，上下文的) word representations获得了NAACL 2018的outstanding paper award，其方法有很大的启发意义。近几年来，预训练的word representation在NLP任务中表现出了很好的性能，阅读全文

posted @ 2022-07-01 09:30 朴素贝叶斯阅读(258) 评论(0) 推荐(0) 编辑

公告

导航