摘要:
接下来,目的就是要将训练集所有文本文件(词向量)统一到同一个词向量空间中。在词向量空间中,事实上不同的词,它的权重是不同的,它对文本分类的影响力也不同,为此我们希望得到的词向量空间不是等权重的空间,而是不同权重的词向量空间。我们把带有不同权重的词向量空间叫做“加权词向量空间”,也有的技术文档将其称为 阅读全文
摘要:
对原始数据集进行分词处理,并且通过绑定为Bunch数据类型,实现了数据集的变量表示。 文本分类的结构化方法就是向量空间模型,把文本表示为一个向量,该向量的每个特征表示为文本中出现的词。通常,把训练集中出现的每个不同的字符串都作为一个维度,包括常用词、专有词、词组和其他类型的模式串,如电子邮件地址和U 阅读全文