会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
大大黄小菜鸟
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2020年5月26日
文本的向量表示
摘要: 文本的向量表示 1. 为什么需要文本的表示? 文字是人类认知过程中产生的高层认知抽象实体,我们需要将其转换为数字向量或矩阵作为机器学习算法模型以及神经网络模型的标准输入输出。 2. 词袋模型(Bag-of-words) Bag-of-words模型是信息检索领域常用的文档表示方法。在文本特征生成过程
阅读全文
posted @ 2020-05-26 10:39 大大黄小菜鸟
阅读(1559)
评论(0)
推荐(0)
编辑
gensim生成词向量并获取词向量矩阵
摘要: gensim生成词向量并获取词向量矩阵 word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,但是调用gensim.models的word2vec模块使用skip-gram或CBOW完成词向量训练之后,如何获取词向量中的词汇表以及对应的词向量矩阵呢。本文
阅读全文
posted @ 2020-05-26 10:37 大大黄小菜鸟
阅读(4151)
评论(0)
推荐(2)
编辑
2020年1月2日
文本可视化(词云)
摘要: 文本可视化(词云图) (一)文本可视化种类 (1)基于文本内容的可视化 基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化,常用的有词云、分布图和 Document Cards 等。 (2)基于文本关系的可视化 基于文本关系的可视化研究文本内外关系,帮助人们理解文本内容和发现规律。常
阅读全文
posted @ 2020-01-02 20:30 大大黄小菜鸟
阅读(1754)
评论(0)
推荐(1)
编辑
2019年12月5日
N-gram模型
摘要: N-gram模型 (一)引言 N-gram是自然语言处理中常见一种基于统计的语言模型。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,在所给语句中对所有的gram出现的频数进行统计。再根据整体语料库中每个gram出现的频数进
阅读全文
posted @ 2019-12-05 17:32 大大黄小菜鸟
阅读(3236)
评论(0)
推荐(0)
编辑
朴素贝叶斯
摘要: 朴素贝叶斯 (一)引言 朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的常见的机器学习分类算法。假设给定一个训练数据集,首先根据特征条件独立性假设来学习输入/输出 的联合概率分布(学习得到一个模型)。然后根据该模型,对于给定的新的样本数据(即不在训练数据集中),利用贝叶斯定理求出后验概率最大的输
阅读全文
posted @ 2019-12-05 17:31 大大黄小菜鸟
阅读(349)
评论(0)
推荐(0)
编辑
最大匹配算法
摘要: 中文分词:最大匹配算法 (一)引言 分词是自然语言处理中非常常见的操作,也是必不可少的文本数据预处理步骤。各国语言的表达方式和书写方式截然不同,因此分词的方式和难度也不同。英文分词是最简单的,因为每个单词已经用空格自动分词了,比如"I like Chinese" 这个句子已经被分成了三个单词。当然,
阅读全文
posted @ 2019-12-05 17:30 大大黄小菜鸟
阅读(1855)
评论(0)
推荐(1)
编辑
2018年3月7日
python爬取糗事百科段子
摘要: 今天尝试了一下用python3加正则表达式爬取糗事百科的内容,让我们一起来看一下: 我们的目标是爬取用户名和所对应的段子内容 首先来观察网站,进入糗事百科首页。 (1)鼠标放在用户名上右键点“检查”: 通过观察可以得到用户名的正则表达式:userpart为'target="_blank" oncli
阅读全文
posted @ 2018-03-07 17:15 大大黄小菜鸟
阅读(183)
评论(0)
推荐(0)
编辑
python爬取京东手机图片
摘要: 关于爬取京东手机图片:之前一直使用python2加xpath来完成这个任务。本篇介绍如何使用python3加正则表达式来完成。使用的书籍《精通Python网络爬虫》中的案例代码不太适用了,在这里稍作改进。 首先来观察网站,进入京东首页,点击“手机/运营商/数码”中的手机,再点击“热门分类”中的“全部
阅读全文
posted @ 2018-03-07 11:22 大大黄小菜鸟
阅读(277)
评论(0)
推荐(0)
编辑