摘要: 1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量 阅读全文
posted @ 2020-01-09 17:01 我是属车的 阅读(559) 评论(0) 推荐(0) 编辑
摘要: 1、概念 * word2vector 是google开源的一个生成词向量的工具, * 以语言模型为优化目标,迭代更新训练文本中的词向量,最终收敛获得词向量。 * 词向量可以作为文本分析中重要的特征,在分类问题、标注问题等场景都有着重要的应用价值。 * 由于是用向量表示,而且用较好的训练算法得到的词向 阅读全文
posted @ 2020-01-09 16:49 我是属车的 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 1、概念 TF-IDF (Term frequency-inverse document frequency)TF-IDF(HashingTF and IDF)“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示 阅读全文
posted @ 2020-01-09 16:27 我是属车的 阅读(1534) 评论(0) 推荐(0) 编辑