摘要: 与StringIndexer相对应,IndexToString的作用是把标签索引的一列重新映射回原有的字符型标签。 其主要使用场景一般都是和StringIndexer配合,先用StringIndexer将标签转化成标签索引,进行模 型训练,然后在预测标签的时候再把标签索引转化成原有的字符标签。当然, 阅读全文
posted @ 2018-08-17 11:33 Bean_zheng 阅读(861) 评论(0) 推荐(0) 编辑
摘要: 在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数 索引,或是在计算结束后将整数索引还原为相应的标签。 ​StringIndexer转换器可以把一列类别型的特征(或标签)进行编码,使其数值化,索引的 范围从0开始,该过程可以使得相应的特征索引化,使得某些无法接 阅读全文
posted @ 2018-08-17 11:26 Bean_zheng 阅读(2857) 评论(0) 推荐(1) 编辑
摘要: CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时, Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel 用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法,例 阅读全文
posted @ 2018-08-16 10:41 Bean_zheng 阅读(933) 评论(0) 推荐(0) 编辑
摘要: #导入相关的库 from pyspark.ml.feature import Word2Vec from pyspark.sql import SparkSession #配置spark spark = SparkSession.builder.master("local").appName("Wo 阅读全文
posted @ 2018-08-16 10:40 Bean_zheng 阅读(899) 评论(0) 推荐(0) 编辑
摘要: FTP服务器搭建: 这里直接贴一老哥的链接:https://blog.csdn.net/lj402159806/article/details/78209103 非常感谢 安装vsftpd 1 配置参数 命令行输入 使用如下配置 配置说明 anonymous_enable=NO 拒绝匿名登陆 wri 阅读全文
posted @ 2018-08-15 15:03 Bean_zheng 阅读(948) 评论(0) 推荐(0) 编辑
摘要: 创建实验数据: from pyspark import SparkContext import random OutputFile = "file:///usr/local/spark/mycode/exercise/people" sc = SparkContext('local','create 阅读全文
posted @ 2018-08-14 11:24 Bean_zheng 阅读(819) 评论(0) 推荐(0) 编辑
摘要: 自动生成实验数据: 自动生成1000个样例数据 from pyspark import SparkContext,SparkConf import random def getRandomGender(): rand = random.randint(0,2)+1 if rand % 2 ==0: 阅读全文
posted @ 2018-08-13 11:41 Bean_zheng 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 特征处理相关的算法,大体分为以下三类: 特征抽取:从原始数据中抽取特征 特征转换:特征的维度、特征的转化、特征的修改 特征选取:从大规模特征集中选取一个子集 #导入相关的库 from pyspark.ml.feature import HashingTF,IDF,Tokenizer from pys 阅读全文
posted @ 2018-08-12 11:07 Bean_zheng 阅读(271) 评论(0) 推荐(0) 编辑
摘要: #导入相关库 from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.ml import Pipeline from pyspark.ml.classification import Log 阅读全文
posted @ 2018-08-11 12:07 Bean_zheng 阅读(330) 评论(0) 推荐(0) 编辑
摘要: <?xml version="1.0" encoding="utf-8"?> <beans --整个配置文件的根节点,包含一个或多个bean元素 xmlns= --最基本的命名空间定义 xmlns:xsi= --最基本的命名空间定义 xmlns:context= --启动自动扫描或注解装配时的,命名 阅读全文
posted @ 2018-08-10 09:35 Bean_zheng 阅读(470) 评论(0) 推荐(0) 编辑