| | | |

2020年5月26日

摘要：文本的向量表示 1. 为什么需要文本的表示？文字是人类认知过程中产生的高层认知抽象实体，我们需要将其转换为数字向量或矩阵作为机器学习算法模型以及神经网络模型的标准输入输出。 2. 词袋模型（Bag-of-words） Bag-of-words模型是信息检索领域常用的文档表示方法。在文本特征生成过程阅读全文

posted @ 2020-05-26 10:39 大大黄小菜鸟阅读(1643) 评论(0) 推荐(0)

gensim生成词向量并获取词向量矩阵

摘要： gensim生成词向量并获取词向量矩阵 word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，但是调用gensim.models的word2vec模块使用skip-gram或CBOW完成词向量训练之后，如何获取词向量中的词汇表以及对应的词向量矩阵呢。本文阅读全文

posted @ 2020-05-26 10:37 大大黄小菜鸟阅读(4241) 评论(0) 推荐(2)

2020年1月2日

文本可视化（词云）

摘要：文本可视化（词云图）（一）文本可视化种类（1）基于文本内容的可视化基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化，常用的有词云、分布图和 Document Cards 等。（2）基于文本关系的可视化基于文本关系的可视化研究文本内外关系，帮助人们理解文本内容和发现规律。常阅读全文

posted @ 2020-01-02 20:30 大大黄小菜鸟阅读(1852) 评论(0) 推荐(1)

2019年12月5日

N-gram模型

摘要： N-gram模型（一）引言 N-gram是自然语言处理中常见一种基于统计的语言模型。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，在所给语句中对所有的gram出现的频数进行统计。再根据整体语料库中每个gram出现的频数进阅读全文

posted @ 2019-12-05 17:32 大大黄小菜鸟阅读(3747) 评论(0) 推荐(0)

朴素贝叶斯

摘要：朴素贝叶斯（一）引言朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的常见的机器学习分类算法。假设给定一个训练数据集，首先根据特征条件独立性假设来学习输入/输出的联合概率分布（学习得到一个模型）。然后根据该模型，对于给定的新的样本数据（即不在训练数据集中），利用贝叶斯定理求出后验概率最大的输阅读全文

posted @ 2019-12-05 17:31 大大黄小菜鸟阅读(377) 评论(0) 推荐(0)

最大匹配算法

摘要：中文分词：最大匹配算法（一）引言分词是自然语言处理中非常常见的操作，也是必不可少的文本数据预处理步骤。各国语言的表达方式和书写方式截然不同，因此分词的方式和难度也不同。英文分词是最简单的，因为每个单词已经用空格自动分词了，比如"I like Chinese" 这个句子已经被分成了三个单词。当然，阅读全文

posted @ 2019-12-05 17:30 大大黄小菜鸟阅读(1890) 评论(0) 推荐(1)

2018年3月7日

python爬取糗事百科段子

摘要：今天尝试了一下用python3加正则表达式爬取糗事百科的内容，让我们一起来看一下：我们的目标是爬取用户名和所对应的段子内容首先来观察网站，进入糗事百科首页。（1）鼠标放在用户名上右键点“检查”：通过观察可以得到用户名的正则表达式：userpart为'target="_blank" oncli 阅读全文

posted @ 2018-03-07 17:15 大大黄小菜鸟阅读(197) 评论(0) 推荐(0)

python爬取京东手机图片

摘要：关于爬取京东手机图片：之前一直使用python2加xpath来完成这个任务。本篇介绍如何使用python3加正则表达式来完成。使用的书籍《精通Python网络爬虫》中的案例代码不太适用了，在这里稍作改进。首先来观察网站，进入京东首页，点击“手机/运营商/数码”中的手机，再点击“热门分类”中的“全部阅读全文

posted @ 2018-03-07 11:22 大大黄小菜鸟阅读(296) 评论(0) 推荐(0)