上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 45 下一页
摘要: 1规定划分区间的参数,取定长的间隔将特征放入不同的箱子中,这种方法对异常点比较敏感。(等宽) 2 根据频率划分箱子,会出现特征相同却不在一个箱子中的情况,需要在划分完成后进行微调。(等频)先对特征值进行sort,然后评估分割点,划分或者合并 3 1R方法:将前面的m个实例放入箱子中如果后面实例放入箱 阅读全文
posted @ 2019-06-27 21:52 大葱拌豆腐 阅读(1798) 评论(0) 推荐(0) 编辑
摘要: spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行insert overwrite table流程: 1 创建临时目录,比如2 将数据写到临时目录; .hive 阅读全文
posted @ 2019-06-24 14:30 大葱拌豆腐 阅读(1955) 评论(0) 推荐(0) 编辑
摘要: 一、累加器简介 在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark Streaming应用中记录某些事件的数量。 使用累加器时需要注意只有Driver能够取到累加器的值,T 阅读全文
posted @ 2019-06-20 09:32 大葱拌豆腐 阅读(10996) 评论(0) 推荐(1) 编辑
摘要: 很多时候 我们写的Java程序是分模块的,有很好的扩展机制,即我们可以为我们自己的java类添加插件,来运行将来某天我们可能开发出来的类,以下称这些类为插件类。 下边是一种简单的实现方法: Class A 作为程序的主入口,其中包含了程序的执行入口(main)函数。然后在main函数中通过外部的配置 阅读全文
posted @ 2019-06-12 18:58 大葱拌豆腐 阅读(6744) 评论(1) 推荐(2) 编辑
摘要: 排序方法在实际的应用场景中非常常见,Scala里面有三种排序方法,分别是: sorted,sortBy ,sortWith 分别介绍下他们的功能: (1)sorted 对一个集合进行自然排序,通过传递隐式的Ordering (2)sortBy 对一个属性或多个属性进行排序,通过它的类型。 (3)so 阅读全文
posted @ 2019-06-02 21:24 大葱拌豆腐 阅读(4518) 评论(0) 推荐(1) 编辑
摘要: 2.使用时涉及到的的包 阅读全文
posted @ 2019-06-02 13:26 大葱拌豆腐 阅读(10130) 评论(1) 推荐(0) 编辑
摘要: 在关于spark任务并行度的设置中,有两个参数我们会经常遇到,spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什么区别的? 首先,让我们来看下它们的定义 For distributed shuffle opera 阅读全文
posted @ 2019-06-01 19:04 大葱拌豆腐 阅读(9404) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.jianshu.com/p/e4c90dc08935 1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: 用Spark Sql,在程序里组建表语句,然后用S 阅读全文
posted @ 2019-05-28 20:25 大葱拌豆腐 阅读(2854) 评论(0) 推荐(0) 编辑
摘要: 采用信息增益或基尼指数寻找最优离散化点 阅读全文
posted @ 2019-05-16 17:11 大葱拌豆腐 阅读(694) 评论(0) 推荐(0) 编辑
摘要: VectorIndexer 主要作用:提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对 阅读全文
posted @ 2019-05-16 17:04 大葱拌豆腐 阅读(1562) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 45 下一页