大葱拌豆腐 - 博客园

2019年6月24日

摘要： spark sql执行insert overwrite table时，写到新表或者新分区的文件个数，有可能是200个，也有可能是任意个，为什么会有这种差别？首先看一下spark sql执行insert overwrite table流程： 1 创建临时目录，比如2 将数据写到临时目录； .hive 阅读全文

posted @ 2019-06-24 14:30 大葱拌豆腐阅读(2051) 评论(0) 推荐(0)

2019年6月20日

Spark累加器（Accumulator）

摘要：一、累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量，使用filter/reduce也可以，但是使用累加器是一种更方便的方式，累加器一个比较经典的应用场景是用来在Spark Streaming应用中记录某些事件的数量。使用累加器时需要注意只有Driver能够取到累加器的值，T 阅读全文

posted @ 2019-06-20 09:32 大葱拌豆腐阅读(11230) 评论(0) 推荐(1)

2019年6月12日

java中使用URLClassLoader访问外部jar包的java类

摘要：很多时候我们写的Java程序是分模块的，有很好的扩展机制，即我们可以为我们自己的java类添加插件，来运行将来某天我们可能开发出来的类，以下称这些类为插件类。下边是一种简单的实现方法： Class A 作为程序的主入口，其中包含了程序的执行入口（main）函数。然后在main函数中通过外部的配置阅读全文

posted @ 2019-06-12 18:58 大葱拌豆腐阅读(7323) 评论(1) 推荐(2)

2019年6月2日

Scala里面的排序函数的使用

摘要：排序方法在实际的应用场景中非常常见，Scala里面有三种排序方法，分别是： sorted，sortBy ，sortWith 分别介绍下他们的功能：（1）sorted 对一个集合进行自然排序，通过传递隐式的Ordering （2）sortBy 对一个属性或多个属性进行排序，通过它的类型。（3）so 阅读全文

posted @ 2019-06-02 21:24 大葱拌豆腐阅读(4763) 评论(0) 推荐(1)

Spark获取DataFrame中列的几种姿势--col，$，column，apply

摘要： 2.使用时涉及到的的包阅读全文

posted @ 2019-06-02 13:26 大葱拌豆腐阅读(10283) 评论(1) 推荐(0)

2019年6月1日

spark.sql.shuffle.partitions和spark.default.parallelism的区别

摘要：在关于spark任务并行度的设置中，有两个参数我们会经常遇到，spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什么区别的？首先，让我们来看下它们的定义 For distributed shuffle opera 阅读全文

posted @ 2019-06-01 19:04 大葱拌豆腐阅读(9692) 评论(0) 推荐(0)

2019年5月28日

Spark通过修改DataFrame的schema给表字段添加注释（转载）

摘要：转载自：https://www.jianshu.com/p/e4c90dc08935 1、需求背景通过Spark将关系型数据库（以Oracle为例）的表同步的Hive表，要求用Spark建表，有字段注释的也要加上注释。Spark建表，有两种方法：用Spark Sql，在程序里组建表语句，然后用S 阅读全文

posted @ 2019-05-28 20:25 大葱拌豆腐阅读(3071) 评论(0) 推荐(0)

2019年5月16日

对有序特征进行离散化（继承Spark的机器学习Estimator类）

摘要：采用信息增益或基尼指数寻找最优离散化点阅读全文

posted @ 2019-05-16 17:11 大葱拌豆腐阅读(710) 评论(0) 推荐(0)

Spark ML 中 VectorIndexer, StringIndexer等用法（转载）

摘要： VectorIndexer 主要作用：提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别（离散值）特征（index categorical features categorical features ）进行编号。它能够自动判断那些特征是离散值型的特征，并对阅读全文

posted @ 2019-05-16 17:04 大葱拌豆腐阅读(1627) 评论(0) 推荐(0)

2019年5月14日

Z-Score数据标准化（转载）

摘要：简介Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。一句话解释版本： Z-Score通过（x-μ）/σ将两组或多组数据转化为无单位的Z-Score分值，使得数据标准统一化，提高了数据可比性，削弱了数据解释性。数据分析与挖掘体系位阅读全文

posted @ 2019-05-14 11:59 大葱拌豆腐阅读(20867) 评论(0) 推荐(1)

公告