04 2019 档案
摘要:二元转换BinarizerBinarizer是将连续型变量根据某个阈值,转换成二元的分类变量。小于该阈值的转换为0,大于该阈值的转换为1。 要求输入列必须是double,int都会报错。如下:输入的是0.1,0.8,0.2连续型变量,要以0.5为阈值来转换成二元变量(0,1)。 打印结果: 多了一个
阅读全文
摘要:转载自:https://blog.csdn.net/sunbow0/article/details/50848719 1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1 导论Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算
阅读全文
摘要:问题:你要遍历一个有序集合,同时你又想访问一个循环计数器,但最重要的是你真的不需要手动创建这个计数器。解决方案: 使用zipWithIndex或者zip方法来自动地创建一个计数器,假设你有一个有序集合days,那么你可以使用zipWithIndex和counter来打印带有计数器的集合元素: 同样,
阅读全文
摘要:前言 在平时的 Spark 处理中常常会有把一个如 2012-12-12 这样的 date 类型转换成一个 long 的 Unix time 然后进行计算的需求.下面是一段示例代码: 问题 & 解决 首先很直观的是直接把DateType cast 成 LongType, 如下: 但是这样出来都是 n
阅读全文
摘要:1. 遇到了啥问题 是酱紫的,简单来说:并发执行 spark job 的时候,并发的提速很不明显。 嗯,且听我慢慢道来,啰嗦点说,类似于我们内部有一个系统给分析师用,他们写一些 sql,在我们的 spark cluster 上跑。随着分析师越来越多,sql job 也越来越多,等待运行的时间也越来越
阅读全文
摘要:现在的spark sql编程通常使用scala api 以及 java api的方式,相比于直接使用 spark sql语句,spark api灵活很多,毕竟可以基于dataset以及rdd两种方式进行操作,不过spark sql的坑就有点多了。 1,getClass.getResourceAsSt
阅读全文
摘要:这段时间在慢慢学习有关维度建模的一些东西,其中有个问题当时被老大挖了个坑就跳了进去几天都没爬出来,这个坑主要在于我对维度表,实体表,事实表这三种表之间的关系和概念认知比较模糊,当时老大要我去设计一个关于设备的维度和事实表及实体表出来时,结果我就真的去傻乎乎的对设备进行各种维度表和事实表的设计,然后在
阅读全文