2022 年 7月随笔档案 - 朴素贝叶斯

python中pickle模块常见用法小结

摘要：我们经常遇到，在Python程序运行中得到了一些字符串、列表、字典等数据，想要长久的保存下来，方便以后使用，而不是简单的放入内存中关机断电就丢失数据。这个时候pickle模块就派上用场了，它可以将对象转换为一种可以传输或存储的格式。 python的pickle模块实现了基本的数据序列化和反序列化。阅读全文

posted @ 2022-07-28 20:46 朴素贝叶斯阅读(169) 评论(0) 推荐(0) 编辑

VScode设置Ctrl+鼠标滚轮放大缩小界面

摘要：打开settings界面：在settings界面的搜索框中输入editor.mouseWheelZoom: 然后勾选Zoom the font of the editor when using mouse wheel and holding Ctrl.前面的复选框：阅读全文

posted @ 2022-07-19 17:38 朴素贝叶斯阅读(2360) 评论(0) 推荐(0) 编辑

28. 实现 strStr()

摘要：题目实现 strStr() 函数。给你两个字符串 haystack 和 needle ，请你在 haystack 字符串中找出 needle 字符串出现的第一个位置（下标从 0 开始）。如果不存在，则返回 -1 。说明：当 needle 是空字符串时，我们应当返回什么值呢？这是一个在面试中很阅读全文

posted @ 2022-07-15 14:29 朴素贝叶斯阅读(51) 评论(0) 推荐(0) 编辑

读完本文，你就能彻底明白C++多文件编程！

摘要：在 C++ 多文件编程中，一个完整的 C++ 项目可以包含 2 类文件，即 .h 文件和 .cpp 文件。通常情况下，.h 文件称为 C++ 头文件，.cpp 文件称为 C++ 源文件。通过《用g++命令执行C++多文件项目》一节的学习我们知道，同属一个 C++ 项目中的所有代码文件是分别进行编阅读全文

posted @ 2022-07-12 17:19 朴素贝叶斯阅读(4209) 评论(0) 推荐(2) 编辑

用g++命令执行C++多文件项目

摘要：《那些被编译器隐藏了的过程》一节中讲到，C 或者 C++ 程序的执行过程分为 4 步，依次是预处理编译汇编链接我们知道，C++ 多文件编程中有头文件（.h 为后缀）和源文件（.cpp为后缀）之分。需要注意的是，在执行 C++项目时，头文件是不需要经历以上这 4 个阶段的，只有项目中的所有源阅读全文

posted @ 2022-07-12 16:53 朴素贝叶斯阅读(759) 评论(0) 推荐(0) 编辑

C++ const常量在多文件编程中的3种用法

摘要：《C++多文件编程是什么》一节提到，多文件编程中代码的划分原则是：将变量、函数或者类的声明部分存放在 .h 文件，对应的实现部分放在 .cpp 文件中。值得一提得是，此规律适用于大部分场景，但本节要讲的 const 常量是一个例外。我们知道，用 const 修饰的变量必须在定义的同时进行初始阅读全文

posted @ 2022-07-12 16:33 朴素贝叶斯阅读(1936) 评论(0) 推荐(0) 编辑

C++命名空间在多文件编程中的具体用法

摘要：《C++命名空间》一节讲到，C++ 引入命名空间是为了避免合作开发项目时产生命名冲突，例如： #include <iostream> namespace Li { //小李的变量定义 class Student { public: void display(){ std::cout << "Li:: 阅读全文

posted @ 2022-07-12 16:27 朴素贝叶斯阅读(3267) 评论(0) 推荐(0) 编辑

C++标准库和std命名空间

摘要：C++ 是在C语言的基础上开发的，早期的 C++ 还不完善，不支持命名空间，没有自己的编译器，而是将 C++ 代码翻译成C代码，再通过C编译器完成编译。这个时候的 C++ 仍然在使用C语言的库，stdio.h、stdlib.h、string.h 等头文件依然有效；此外 C++ 也开发了一些新的库，增阅读全文

posted @ 2022-07-12 15:27 朴素贝叶斯阅读(725) 评论(0) 推荐(0) 编辑

C++命名空间（名字空间）

摘要：一个中大型软件往往由多名程序员共同开发，会使用大量的变量和函数，不可避免地会出现变量或函数的命名冲突。当所有人的代码都测试通过，没有问题时，将它们结合到一起就有可能会出现命名冲突。例如小李和小韩都参与了一个文件管理系统的开发，它们都定义了一个全局变量 fp，用来指明当前打开的文件，将他们的代码整合阅读全文

posted @ 2022-07-12 15:01 朴素贝叶斯阅读(264) 评论(0) 推荐(0) 编辑

C++如何防止头文件被重复引入（3种方法）

摘要：《防止C语言头文件被重复包含》一节中，详细介绍了 C 语言中如何使用宏定义（#ifndef / #define / #endif）来有效避免头文件被重复 #include，此方式在 C++ 多文件编程中也很常用。举个例子，如下是一个 C++ 项目，其内部含有 school.h 和 student. 阅读全文

posted @ 2022-07-12 14:31 朴素贝叶斯阅读(2265) 评论(0) 推荐(0) 编辑

C++多文件编程是什么

摘要：在前面的教程中，我们都是将所有的代码写到一个源文件里面，例如： #include <iostream> using namespace std; class Student{ public: const char* name; int age; float score; void say() con 阅读全文

posted @ 2022-07-12 14:07 朴素贝叶斯阅读(378) 评论(0) 推荐(0) 编辑

(C++)第12章 C++多文件编程总结

摘要：简单地理解C++多文件编程，其就是把多个头文件(.h文件)和源文件(.cpp文件)组合在一起构成一个程序，这是C++的重点，也是C++的难点。在C++多文件编程中，头文件的编写是重点内容，有很多细节需要注意，有的甚至会让你感觉奇怪。除此之外，多文件编程还会涉及到内存和程序的编译原理，学会了多文阅读全文

posted @ 2022-07-12 14:05 朴素贝叶斯阅读(147) 评论(0) 推荐(0) 编辑

(转载)英文文本挖掘预处理流程总结

摘要：原地址英文文本挖掘预处理特点英文文本的预处理方法和中文的有部分区别。首先，英文文本挖掘预处理一般可以不做分词（特殊需求除外），而中文预处理分词是必不可少的一步。英文文本的预处理也有自己特殊的地方，拼写问题，很多时候，我们的预处理要包括拼写检查，比如“Helo World”这样的错误，我们不能阅读全文

posted @ 2022-07-10 12:24 朴素贝叶斯阅读(249) 评论(0) 推荐(0) 编辑

(转载)中文文本挖掘预处理流程总结

摘要：原地址前言在对文本做数据分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就对中文文本挖掘的预处理流程做一个总结。中文文本挖掘预处理特点首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。首先，中文文本是没有像英文的单词空格那样隔开的，因此阅读全文

posted @ 2022-07-09 22:14 朴素贝叶斯阅读(672) 评论(0) 推荐(0) 编辑

(转载)文本挖掘预处理之TF-IDF

摘要：原地址前言在文本挖掘预处理之向量化与Hash Trick中，我们讲到，在文本挖掘的预处理中，向量化之后一般都伴随着TF-IDF的处理，那么什么是TF-IDF，为什么一般我们要加这一步预处理呢？这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足在将文本分词并向量化后，我们可以得到阅读全文

posted @ 2022-07-09 21:29 朴素贝叶斯阅读(305) 评论(0) 推荐(0) 编辑

(转载)文本挖掘预处理之向量化与Hash Trick

摘要：原地址前言在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例Hash Trick预处理方法做一个总结。 1. 词袋模型在讲向量化与Has 阅读全文

posted @ 2022-07-09 15:17 朴素贝叶斯阅读(133) 评论(0) 推荐(0) 编辑

(转载)文本挖掘的分词原理

摘要：原地址前言在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，阅读全文

posted @ 2022-07-09 08:40 朴素贝叶斯阅读(87) 评论(0) 推荐(0) 编辑

(转载)自然语言处理——分词算法

摘要：原地址引言分词是自然语言处理中的基本操作，今天我们就来看一下常用的分词算法及实现。最大匹配算法所谓的最大匹配指的是匹配最长的单词，通常会指定一个最大长度。根据搜索顺序的不同，主要有：前向最大匹配算法、后向最大匹配算法、双向匹配算法。前向最大匹配算法所有的分词算法都是基于词典的，假设阅读全文

posted @ 2022-07-07 22:12 朴素贝叶斯阅读(289) 评论(0) 推荐(0) 编辑

76. 最小覆盖子串

摘要：题目给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串，则返回空字符串 "" 。注意：对于 t 中重复字符，我们寻找的子字符串中该字符数量必须不少于 t 中该字符数量。如果 s 中存在这样的子串，我们保证它是唯一的答案阅读全文

posted @ 2022-07-06 19:27 朴素贝叶斯阅读(45) 评论(0) 推荐(0) 编辑

30. 串联所有单词的子串

摘要：题目给定一个字符串 s 和一些长度相同的单词 words 。找出 s 中恰好可以由 words 中所有单词串联形成的子串的起始位置。注意子串要与 words 中的单词完全匹配，中间不能有其他字符，但不需要考虑 words 中单词串联的顺序。示例 1：输入：s = "barfoothef 阅读全文

posted @ 2022-07-04 21:50 朴素贝叶斯阅读(41) 评论(0) 推荐(0) 编辑

(转载)李宏毅自然语言处理——GPT3简介

摘要：李宏毅自然语言处理——GPT3简介本文原地址：https://blog.csdn.net/yjw123456/article/details/119705148 引言今天来介绍下牛逼的GPT-31，它是一个拥有1750亿参数的巨大的自回归(autoregressive)语言模型。 GPT-3简介阅读全文

posted @ 2022-07-02 22:49 朴素贝叶斯阅读(1683) 评论(0) 推荐(0) 编辑

(转载)GPT-3阅读笔记：Language Models are Few-Shot Learners

摘要：原地址论文地址:《Language Models are Few-Shot Learners》 Abstract 提出问题：最近的许多研究都表明pre-train模型搭配下游任务fine-tune在许多情况下效果显著，但是微调过程需要大量的样本。这一框架不符合人类的习惯，人类只需要少量的示例或说明阅读全文

posted @ 2022-07-02 19:58 朴素贝叶斯阅读(1333) 评论(0) 推荐(0) 编辑

GPT2

摘要：前言 GPT2是OPen AI发布的一个预训练语言模型，见论文《Language Models are Unsupervised Multitask Learners》，GPT-2在文本生成上有着惊艳的表现，其生成的文本在上下文连贯性和情感表达上都超过了人们的预期。仅从模型架构而言，GPT-2 并没阅读全文

posted @ 2022-07-02 16:24 朴素贝叶斯阅读(2281) 评论(0) 推荐(0) 编辑

BERT

摘要：BERT介绍 BERT(Bidirectional Encoder Representation from Transformers)是2018年10月由Google AI研究院提出的一种预训练模型，该模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类阅读全文

posted @ 2022-07-01 23:02 朴素贝叶斯阅读(620) 评论(0) 推荐(0) 编辑

GPT

摘要：1. 介绍 2018 年 6 月，OpenAI 发表论文介绍了自己的语言模型 GPT， GPT 是“Generative Pre-Training”的简称，它基于 Transformer 架构， GPT模型先在大规模语料上进行无监督预训练、再在小得多的有监督数据集上为具体任务进行精细调节（fin 阅读全文

posted @ 2022-07-01 21:39 朴素贝叶斯阅读(2444) 评论(0) 推荐(0) 编辑

ELMo

摘要：1.前言 Deep contextualized(情境的，上下文的) word representations获得了NAACL 2018的outstanding paper award，其方法有很大的启发意义。近几年来，预训练的word representation在NLP任务中表现出了很好的性能，阅读全文

posted @ 2022-07-01 09:30 朴素贝叶斯阅读(281) 评论(0) 推荐(0) 编辑

朴素贝叶斯

07 2022 档案