2019 年 4月随笔档案 - 大葱拌豆腐

特征处理之数据离散化

摘要：二元转换BinarizerBinarizer是将连续型变量根据某个阈值，转换成二元的分类变量。小于该阈值的转换为0，大于该阈值的转换为1。要求输入列必须是double，int都会报错。如下：输入的是0.1，0.8，0.2连续型变量，要以0.5为阈值来转换成二元变量（0,1）。打印结果：多了一个阅读全文

posted @ 2019-04-28 20:12 大葱拌豆腐阅读(836) 评论(0) 推荐(0) 编辑

基于Spark自动扩展scikit-learn (spark-sklearn)（转载）

摘要：转载自：https://blog.csdn.net/sunbow0/article/details/50848719 1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1 导论Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法，比如在梯度下降算阅读全文

posted @ 2019-04-28 15:43 大葱拌豆腐阅读(1403) 评论(0) 推荐(0) 编辑

Scala中 zip或者zipWithIndex的用法

摘要：问题：你要遍历一个有序集合，同时你又想访问一个循环计数器，但最重要的是你真的不需要手动创建这个计数器。解决方案：使用zipWithIndex或者zip方法来自动地创建一个计数器，假设你有一个有序集合days，那么你可以使用zipWithIndex和counter来打印带有计数器的集合元素：同样，阅读全文

posted @ 2019-04-27 16:55 大葱拌豆腐阅读(9458) 评论(0) 推荐(0) 编辑

Spark DateType cast 踩坑

摘要：前言在平时的 Spark 处理中常常会有把一个如 2012-12-12 这样的 date 类型转换成一个 long 的 Unix time 然后进行计算的需求.下面是一段示例代码: 问题 & 解决首先很直观的是直接把DateType cast 成 LongType, 如下: 但是这样出来都是 n 阅读全文

posted @ 2019-04-22 20:50 大葱拌豆腐阅读(6138) 评论(0) 推荐(2) 编辑

一次 Spark SQL 性能提升10倍的经历（转载）

摘要：1. 遇到了啥问题是酱紫的，简单来说：并发执行 spark job 的时候，并发的提速很不明显。嗯，且听我慢慢道来，啰嗦点说，类似于我们内部有一个系统给分析师用，他们写一些 sql，在我们的 spark cluster 上跑。随着分析师越来越多，sql job 也越来越多，等待运行的时间也越来越阅读全文

posted @ 2019-04-12 09:37 大葱拌豆腐阅读(2574) 评论(0) 推荐(0) 编辑

Spark SQL历险记

摘要：现在的spark sql编程通常使用scala api 以及 java api的方式，相比于直接使用 spark sql语句，spark api灵活很多，毕竟可以基于dataset以及rdd两种方式进行操作，不过spark sql的坑就有点多了。 1，getClass.getResourceAsSt 阅读全文

posted @ 2019-04-08 18:18 大葱拌豆腐阅读(319) 评论(0) 推荐(0) 编辑

维度表，实体表，事实表之间的关系

摘要：这段时间在慢慢学习有关维度建模的一些东西，其中有个问题当时被老大挖了个坑就跳了进去几天都没爬出来，这个坑主要在于我对维度表，实体表，事实表这三种表之间的关系和概念认知比较模糊，当时老大要我去设计一个关于设备的维度和事实表及实体表出来时，结果我就真的去傻乎乎的对设备进行各种维度表和事实表的设计，然后在阅读全文

posted @ 2019-04-01 20:21 大葱拌豆腐阅读(3353) 评论(1) 推荐(2) 编辑

04 2019 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论