上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 45 下一页
摘要: 简介Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。 一句话解释版本: Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。 数据分析与挖掘体系位 阅读全文
posted @ 2019-05-14 11:59 大葱拌豆腐 阅读(20061) 评论(0) 推荐(1) 编辑
摘要: 前言HBase是一款分布式的NoSQL DB,可以轻松扩展存储和读写能力。 主要特性有: 按某精确的key获取对应的value(Get) 通过前缀匹配一段相邻的数据(Scan) 多版本 动态列 服务端协处理器(可以支持用户自定义) TTL:按时间自动过期 今天我们来聊一聊HBase以上特性在特征工程 阅读全文
posted @ 2019-05-06 13:58 大葱拌豆腐 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 二元转换BinarizerBinarizer是将连续型变量根据某个阈值,转换成二元的分类变量。小于该阈值的转换为0,大于该阈值的转换为1。 要求输入列必须是double,int都会报错。如下:输入的是0.1,0.8,0.2连续型变量,要以0.5为阈值来转换成二元变量(0,1)。 打印结果: 多了一个 阅读全文
posted @ 2019-04-28 20:12 大葱拌豆腐 阅读(796) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://blog.csdn.net/sunbow0/article/details/50848719 1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1 导论Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法,比如在梯度下降算 阅读全文
posted @ 2019-04-28 15:43 大葱拌豆腐 阅读(1379) 评论(0) 推荐(0) 编辑
摘要: 问题:你要遍历一个有序集合,同时你又想访问一个循环计数器,但最重要的是你真的不需要手动创建这个计数器。解决方案: 使用zipWithIndex或者zip方法来自动地创建一个计数器,假设你有一个有序集合days,那么你可以使用zipWithIndex和counter来打印带有计数器的集合元素: 同样, 阅读全文
posted @ 2019-04-27 16:55 大葱拌豆腐 阅读(9405) 评论(0) 推荐(0) 编辑
摘要: 前言 在平时的 Spark 处理中常常会有把一个如 2012-12-12 这样的 date 类型转换成一个 long 的 Unix time 然后进行计算的需求.下面是一段示例代码: 问题 & 解决 首先很直观的是直接把DateType cast 成 LongType, 如下: 但是这样出来都是 n 阅读全文
posted @ 2019-04-22 20:50 大葱拌豆腐 阅读(6064) 评论(0) 推荐(2) 编辑
摘要: 1. 遇到了啥问题 是酱紫的,简单来说:并发执行 spark job 的时候,并发的提速很不明显。 嗯,且听我慢慢道来,啰嗦点说,类似于我们内部有一个系统给分析师用,他们写一些 sql,在我们的 spark cluster 上跑。随着分析师越来越多,sql job 也越来越多,等待运行的时间也越来越 阅读全文
posted @ 2019-04-12 09:37 大葱拌豆腐 阅读(2524) 评论(0) 推荐(0) 编辑
摘要: 现在的spark sql编程通常使用scala api 以及 java api的方式,相比于直接使用 spark sql语句,spark api灵活很多,毕竟可以基于dataset以及rdd两种方式进行操作,不过spark sql的坑就有点多了。 1,getClass.getResourceAsSt 阅读全文
posted @ 2019-04-08 18:18 大葱拌豆腐 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 这段时间在慢慢学习有关维度建模的一些东西,其中有个问题当时被老大挖了个坑就跳了进去几天都没爬出来,这个坑主要在于我对维度表,实体表,事实表这三种表之间的关系和概念认知比较模糊,当时老大要我去设计一个关于设备的维度和事实表及实体表出来时,结果我就真的去傻乎乎的对设备进行各种维度表和事实表的设计,然后在 阅读全文
posted @ 2019-04-01 20:21 大葱拌豆腐 阅读(3297) 评论(1) 推荐(2) 编辑
摘要: 源码分析 def seq: TraversableOnce[A] 上面两段代码是scala.collection.TraversableOnce特质的foldLeft方法源代码,实现了TraversableOnce trait的seq就是可迭代的集合; 运行过程为:b=0+a,即0+20=20b=2 阅读全文
posted @ 2019-03-30 13:41 大葱拌豆腐 阅读(2475) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 45 下一页