2020 年 1月随笔档案 - 百里登峰

IDEA开发java版本spark程序

摘要：如何去创建项目这里就不对讲了，可以参考：https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac 阅读全文

posted @ 2020-01-19 18:16 百里登峰阅读(584) 评论(0) 推荐(0) 编辑

IDEA用maven构建java和scala混合项目

摘要：新建一个项目构建完成运行程序新建Scala目录把他标志为资源目录在scala目录下新建包添加scala模块创建scala类输入代码 package com.gong object HelloWorld { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2020-01-19 16:12 百里登峰阅读(2047) 评论(0) 推荐(0) 编辑

在IDEA通过Maven构建Scala项目

摘要：首先在本地安装scala 我这里已经在本地安装好了。打开本地的IDEA 安装scala 创建新的项目选择scala的骨架在这里提醒一下，本地安装的maven记得添加阿里源，不然很多包就下载不了 <mirror> <id>alimaven</id> <name>aliyun maven</nam 阅读全文

posted @ 2020-01-19 15:09 百里登峰阅读(1636) 评论(0) 推荐(0) 编辑

6.Pair RDD操作

摘要：1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value，再聚合为key-values的过程。在Spark里key-value RDD（pair RDD）同样是最常用的，在每个应用中基本都会用到。 pair RDD如何创建？不是通过sc.parallelize 创建通常应用阅读全文

posted @ 2020-01-17 11:46 百里登峰阅读(317) 评论(0) 推荐(0) 编辑

5.RDD的Action操作和持久化persist()

摘要：1.1 Action操作前边提到的first() 、collect() 都是Action操作。常用的有： collect()：把数据返回驱动器程序中最简单、最常见的操作, 通常在单元测试中使用，数据量不能太大，因为放在内存中，数据量大会内存溢出。 reduce()：类似sum() ，如：val s 阅读全文

posted @ 2020-01-16 16:43 百里登峰阅读(1173) 评论(0) 推荐(0) 编辑

29.Spark SQL发展史

摘要：Spark 1.0版本开始，推出了Spark SQL。其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了Spark SQL。Shark的性能比Hive就要高出一个数量级，而Spark SQL的性能又比Shark高出一个数量级。阅读全文

posted @ 2020-01-12 17:51 百里登峰阅读(435) 评论(0) 推荐(0) 编辑

AirFlow初始化的时候遇到 Global variable explicit_defaults_for_timestamp needs to be on (1) for mysql

摘要：在安装airflow后，初始化遇到这样的问题解决方法：进入mysql airflow 数据库，设置global explicit_defaults_for_timestamp 阅读全文

posted @ 2020-01-09 09:52 百里登峰阅读(2706) 评论(0) 推荐(0) 编辑

4.RDD操作之Transform

摘要：RDD 两种类型的操作： Transform转化操作和Action行动操作。 Transform操作会由一个RDD 生成一个新的RDD，这个过程中不进行实质计算，只有当第一次Action操作时才会真正计算。称作Lazy计算，惰性计算。比如： scala> val a = sc.parallel 阅读全文

posted @ 2020-01-07 15:52 百里登峰阅读(816) 评论(0) 推荐(0) 编辑

3.RDD详解和创建RDD方式

摘要：Spark 可以简单概括为 3 点： Scala 语法 RDD 操作（Transform & Action）分布式化做 Spark 开发，其实就是用 Scala 语言进行 RDD 操作， Spark 会自动将 RDD 中的数据分发到集群上，并将操作并行化执行。 Java 工程师做分布式开发的阅读全文

posted @ 2020-01-06 18:50 百里登峰阅读(723) 评论(0) 推荐(0) 编辑

28.Spark中action的介绍

摘要：新建一个类运行代码运行代码运行代码运行代码运行代码阅读全文

posted @ 2020-01-04 18:07 百里登峰阅读(400) 评论(0) 推荐(0) 编辑

百里登风

导航

公告

统计

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

01 2020 档案