2017 年 6月 14 日随笔档案 - 三门曾经

2017年6月14日

摘要：接下来，目的就是要将训练集所有文本文件（词向量）统一到同一个词向量空间中。在词向量空间中，事实上不同的词，它的权重是不同的，它对文本分类的影响力也不同，为此我们希望得到的词向量空间不是等权重的空间，而是不同权重的词向量空间。我们把带有不同权重的词向量空间叫做“加权词向量空间”，也有的技术文档将其称为阅读全文

posted @ 2017-06-14 22:32 三门曾经阅读(2371) 评论(0) 推荐(0) 编辑

文本分类三之向量空间模型

摘要：对原始数据集进行分词处理，并且通过绑定为Bunch数据类型，实现了数据集的变量表示。文本分类的结构化方法就是向量空间模型，把文本表示为一个向量，该向量的每个特征表示为文本中出现的词。通常，把训练集中出现的每个不同的字符串都作为一个维度，包括常用词、专有词、词组和其他类型的模式串，如电子邮件地址和U 阅读全文

posted @ 2017-06-14 16:33 三门曾经阅读(6281) 评论(0) 推荐(0) 编辑

三门曾经

从此无心爱良夜，任他明月下西楼。

公告