摘要: CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时, Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel 用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法,例 阅读全文
posted @ 2018-08-16 10:41 Bean_zheng 阅读(933) 评论(0) 推荐(0) 编辑
摘要: #导入相关的库 from pyspark.ml.feature import Word2Vec from pyspark.sql import SparkSession #配置spark spark = SparkSession.builder.master("local").appName("Wo 阅读全文
posted @ 2018-08-16 10:40 Bean_zheng 阅读(899) 评论(0) 推荐(0) 编辑