10 2023 档案
vs设置自动保存
摘要:Mac: 搜索autosave 选择afterDelay 阅读全文
posted @ 2023-10-27 16:46 黑逍逍 阅读(109) 评论(0) 推荐(0) 编辑
yarn报错
摘要:打开powershell 输入 Set-ExecutionPolicy RemoteSigned Y 阅读全文
posted @ 2023-10-27 16:17 黑逍逍 阅读(2) 评论(0) 推荐(0) 编辑
英文分词NLTK
摘要:? 阅读全文
posted @ 2023-10-26 22:23 黑逍逍 阅读(10) 评论(0) 推荐(0) 编辑
中文分词jieba
摘要:? 阅读全文
posted @ 2023-10-26 22:23 黑逍逍 阅读(2) 评论(0) 推荐(0) 编辑
确定主题种类的方法
摘要:? 阅读全文
posted @ 2023-10-26 22:02 黑逍逍 阅读(5) 评论(0) 推荐(0) 编辑
层次主题模型——Hierarchical LDA原理
摘要:l 阅读全文
posted @ 2023-10-26 18:12 黑逍逍 阅读(47) 评论(0) 推荐(0) 编辑
安装miniconda
摘要:echo 'export PATH="~/miniconda3/bin:$PATH"' >> ~/.bashrcsource ~/.bashrc 阅读全文
posted @ 2023-10-26 15:01 黑逍逍 阅读(3) 评论(0) 推荐(0) 编辑
词袋模型
摘要:不好用,以后也不会用 很难用,非常不建议,训练模型和预测时候,词嵌入维度都不一致 参考文档:https://blog.csdn.net/ProgramNovice/article/details/128159731 阅读全文
posted @ 2023-10-23 00:25 黑逍逍 阅读(12) 评论(0) 推荐(0) 编辑
文本张量和文本向量
摘要:文本张量(Text Tensor) 是一种将文本数据表示为多维数组(张量)的数据结构。文本张量通常用于深度学习和神经网络模型中,以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面: 词汇表:文本张量的一个重要维度是词汇表大小,即语料库中唯一单词的数量。这通常是一个整数值,表示 阅读全文
posted @ 2023-10-22 23:49 黑逍逍 阅读(187) 评论(0) 推荐(0) 编辑
矩阵加法、矩阵乘法。合并矩阵
摘要:加法 矩阵的维度必须相同,即它们具有相同的行数和列数 乘法 两个矩阵的维度必须满足乘法条件。具体来说,第一个矩阵的列数必须等于第二个矩阵的行数。如果第一个矩阵是 m × n(m行n列),第二个矩阵是 n × p(n行p列),那么它们可以相乘,结果将是一个 m × p 的矩阵。 矩阵合并 纵向合并vs 阅读全文
posted @ 2023-10-22 23:32 黑逍逍 阅读(105) 评论(0) 推荐(0) 编辑
向量维度
摘要:什么是维度 计算机科学的观点是向量是数字的有序列表 从三维空间的角度说明向量维度: 一维向量:一维向量包含一个单一的坐标,通常表示为 (x)。这个向量位于一维空间中。 二维向量:二维向量包含两个坐标,通常表示为 (x, y)。这些向量位于二维平面空间中。 三维向量:三维向量包含三个坐标,通常表示为 阅读全文
posted @ 2023-10-22 22:39 黑逍逍 阅读(1452) 评论(0) 推荐(0) 编辑
词向量word2vec
摘要:词向量(Word Vectors),也被称为词嵌入(Word Embeddings) 是自然语言处理(NLP)领域的重要概念之一。它们是一种将单词映射到连续向量空间的技术,使计算机能够更好地理解和处理文本数据。词向量的主要思想是 将单词的语义信息编码成连续的实数向量,使相似的词在向量空间中距离较近, 阅读全文
posted @ 2023-10-22 21:48 黑逍逍 阅读(105) 评论(0) 推荐(0) 编辑
【文本向量化】【刚接触NLP,啥也不会,写错的,都是泪】Scikit-learn 的 preprocessing.LabelEncoder函数:标签编码
摘要:参考文档:https://pythonjishu.com/sklearn-preprocessing-labelencoder/ 最开始写NLP,其实是想把句子变成词向量。用了词袋模型,用了word2vec,都也没用明白。糊里糊涂的用到了这个 哈哈哈 转换类别数据为整数:LabelEncoder 可 阅读全文
posted @ 2023-10-20 17:52 黑逍逍 阅读(41) 评论(0) 推荐(0) 编辑
下采样和上采样
摘要:参考文献:https://blog.csdn.net/zhibing_ding/article/details/125254670 下采样: 上采样是指减少某类别的样本数量多的数据,使其与多数类别的样本数量相近。 对图像而言,下采样就是特征提取,减少数据量 上采样: 上采样是指增加某类别的样本数量少 阅读全文
posted @ 2023-10-19 10:42 黑逍逍 阅读(175) 评论(0) 推荐(0) 编辑
什么是卷积
摘要:参考文献:https://blog.csdn.net/zhibing_ding/article/details/125254670 不断的学习,就会有不同的认识和理解. 卷积操作的基本思想是提取输入数据的局部特征,这有助于网络捕捉图像中的空间结构和模式。 卷积核是一个小的矩阵,通常是正方形的,它在输 阅读全文
posted @ 2023-10-19 10:28 黑逍逍 阅读(33) 评论(0) 推荐(0) 编辑
向量-转置
摘要:转置是一个数学和线性代数中的概念,通常用于矩阵或向量。它是一种操作,通过这种操作可以改变矩阵或向量的行和列的顺序,即将矩阵的行变成列,列变成行,而不改变矩阵中的元素的值。转置操作通常用一个上标T来表示,放在矩阵或向量的右上角。 对于一个矩阵 A,其转置记作 A^T。转置操作的定义如下: 如果 A 是 阅读全文
posted @ 2023-10-19 10:09 黑逍逍 阅读(1231) 评论(0) 推荐(0) 编辑
归一化,池化
摘要:定义:归一化(Normalization)是数据处理和统计分析中常用的一种技术,其目的是将数据转换成特定的范围或分布,以便更好地进行比较、分析和处理。 归一化通常用于以下领域: 数据标准化:在数据分析和机器学习中,归一化可以用于将不同尺度的数据转换为相同的尺度,以避免某些特征对模型的权重产生不合理的 阅读全文
posted @ 2023-10-18 16:14 黑逍逍 阅读(182) 评论(0) 推荐(0) 编辑
注意力机制
摘要:但不论哪一种注意力,其实都是让你在某一时刻将注意力放到某些事物上,而忽略另外的一些事物,这就是注意力机制(Attention Mechanism) 注意力机制是一种在人工智能和机器学习中广泛使用的技术,用于模拟人类的视觉和认知系统中的注意力过程。这个概念源自生物学,描述了人类大脑在处理信息时如何选择 阅读全文
posted @ 2023-10-17 18:01 黑逍逍 阅读(177) 评论(0) 推荐(0) 编辑
朴素贝叶斯
摘要:贝叶斯 朴素贝叶斯 朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的分类算法,通常用于文本分类和模式识别任务。它被称为"朴素"因为它做出了一个朴素的假设,即特征之间是相互独立的,这在实际情况中并不总是成立,但这个假设使得算法计算简单且高效。 特征之间的独立性意味着在贝叶斯公式中,特征之间的 阅读全文
posted @ 2023-10-17 15:06 黑逍逍 阅读(116) 评论(0) 推荐(0) 编辑
主成分分析 (PCA)
摘要:高纬度数据定义 高维度数据指的是数据集中包含大量特征或维度的情况。每个特征都可以看作是数据点的一个属性或测量值。例如,一张彩色图像可以被看作是一个高维度的数据集,其中每个像素的颜色值是一个特征。同样,一个文本文档也可以被视为高维度数据,其中每个单词可以被认为是一个特征 低纬度数据定义 低维度数据是指 阅读全文
posted @ 2023-10-17 14:38 黑逍逍 阅读(90) 评论(0) 推荐(0) 编辑
潜在狄利克雷分布模型(LDA)原理
摘要:理解 在我们阅读一篇文章的时候,需要明确文章的类别(体育类、新闻类)、内容以及中心思想。通常情况下,一篇文章可能包含多个主题,比如在介绍一座城市的时候,可能会从历史、经济、政治、教育、交通等多个方面做介绍。LDA 正是一种自动分析每篇文档,统计文档中的词语,根据统计的信息判断文档包含哪些主题以及各个 阅读全文
posted @ 2023-10-12 17:52 黑逍逍 阅读(414) 评论(0) 推荐(0) 编辑
狄利克雷分布(Dirichlet distribution)
摘要:历史 相关概念 概率密度函数: 概念 狄利克雷分布(Dirichlet Distribution)是概率统计学中的一个概率分布,通常用于描述多维度的随机变量。 通俗点,当我们谈论多维度的随机变量时,我们指的是一个包含多个随机事件或可能性的情况。每个维度代表一个不同的事件或可能性,而整个多维度空间表示 阅读全文
posted @ 2023-10-12 17:50 黑逍逍 阅读(2389) 评论(0) 推荐(0) 编辑
摘要模型是什么-Bart
摘要:摘要模型分为两种 提取式摘要模型: 提取式摘要模型不生成新的文本,而是从原始文本中选择或提取现有句子、段落或短语,以创建摘要。 这些模型通过评估文本中的句子的相关性、重要性或其他特征来选择最相关的部分,以构建摘要。 提取式摘要通常更易实现,因为它不涉及文本生成,而是依赖于选择和筛选原始文本的一部分。 阅读全文
posted @ 2023-10-11 17:58 黑逍逍 阅读(200) 评论(0) 推荐(0) 编辑
NLP的模型
摘要:原来NLP也有模型,用pytorch、tensorflow等训练出来的 摘要模型、分类模型等等 https://huggingface.co/models 阅读全文
posted @ 2023-10-11 17:33 黑逍逍 阅读(64) 评论(0) 推荐(0) 编辑
词性标注
摘要:什么是词性标注 自然语言处理(NLP)中的词性标注(Part-of-Speech Tagging,简称POS Tagging)是文本处理的一项重要任务,其目标是为给定的文本中的每个单词或标记分配一个词性标签,表示该单词在句子中的语法角色和词性类别。这些标签通常用于分析文本的语法结构和语义含义,有助于 阅读全文
posted @ 2023-10-08 20:45 黑逍逍 阅读(454) 评论(0) 推荐(0) 编辑
文本分类入门
摘要:文本分类是自然语言处理(NLP)领域中的一项任务,它涉及将文本文档分配到一个或多个预定义的类别或标签中。其主要目标是使用计算机算法来自动识别和归纳文本的内容,以便更好地组织、检索和理解大量的文本数据。文本分类在许多应用中都有广泛的用途,包括: 情感分析: 将文本分为积极、消极或中性情感,以了解人们对 阅读全文
posted @ 2023-10-08 20:23 黑逍逍 阅读(204) 评论(0) 推荐(0) 编辑
NLP是什么
摘要:NLP代表自然语言处理(Natural Language Processing),是人工智能(AI)的一个子领域,专注于计算机与人类语言之间的交互。NLP的目标是使计算机能够以有意义和有用的方式理解、解释和生成人类语言。该领域涵盖了广泛的任务和应用,包括: 文本分类 文本分类是自然语言处理(NLP) 阅读全文
posted @ 2023-10-08 16:21 黑逍逍 阅读(450) 评论(0) 推荐(0) 编辑
GAN(生成对抗网络,Generative Adversarial Network)
摘要:生成对抗网络(GAN)是一种深度学习模型架构,由生成器(Generator)和判别器(Discriminator)两个神经网络组成。这两个网络之间进行博弈式训练。 生成器(Generator):生成器是一个神经网络模型,它接收一个随机噪声向量作为输入,并试图生成与训练数据相似的新数据样本。生成器的目 阅读全文
posted @ 2023-10-08 13:54 黑逍逍 阅读(478) 评论(0) 推荐(0) 编辑




点击右上角即可分享
微信分享提示