Xiaohu_BigData

2020年2月19日

摘要： Spark SQL Spark与Hive的比较，Hive用一句话总结是，传入一条交互式sql在海量数据中查找结果，Spark可以将其结果转化成RDD来来进一步操作。 1.0以前： Shark 1.1.x开始： SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Da 阅读全文

posted @ 2020-02-19 20:34 Xiaohu_BigData 阅读(418) 评论(0) 推荐(0) 编辑

2020年2月15日

Spark core 总结

摘要： Spark RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置，尽量将task发送到数据所在节点执行 spark 快的原因 1、spar 阅读全文

posted @ 2020-02-15 14:15 Xiaohu_BigData 阅读(900) 评论(0) 推荐(0) 编辑

2020年2月12日

SparkRDD算子（transformations算子和actions算子）

摘要： RDD提供了两种类型的操作：transformation和action1、所有的transformation都是采用的懒策略，如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发。2、action操作：action是得到一个值，或者一个结果（直接将R 阅读全文

posted @ 2020-02-12 19:38 Xiaohu_BigData 阅读(332) 评论(0) 推荐(0) 编辑

SparkRDD算子初识

摘要： Spark 的核心是建立在统一的抽象弹性分布式数据集（Resiliennt Distributed Datasets，RDD）之上的，这使得 Spark 的各个组件可以无缝地进行集成，能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。先回顾一下R 阅读全文

posted @ 2020-02-12 18:36 Xiaohu_BigData 阅读(495) 评论(0) 推荐(0) 编辑

2020年2月11日

初识Spark

摘要： Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点：运行速度快：Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引阅读全文

posted @ 2020-02-11 13:03 Xiaohu_BigData 阅读(427) 评论(0) 推荐(0) 编辑

2020年1月20日

Scala Map集合

摘要： package com.wyh.day01 object ScalaMap { def main(args: Array[String]): Unit = { /** * 不可变Map * */ //创建不可变集合，两种写法 var map1 = Map((1604093026, "王友虎"), 1 阅读全文

posted @ 2020-01-20 13:37 Xiaohu_BigData 阅读(423) 评论(0) 推荐(0) 编辑

Scala Set集合元素唯一，无序

摘要： package com.wyh.day01 /** * Set集合 * 唯一，无序 * * Set中大部分方法与List一致，但是不可以进行排序 */ object ScalaSet { def main(args: Array[String]): Unit = { var set1 = Set(1 阅读全文

posted @ 2020-01-20 13:08 Xiaohu_BigData 阅读(448) 评论(0) 推荐(0) 编辑

Scala List集合 List 有序不唯一，元素可重复

摘要： package com.wyh.day01 import scala.collection.mutable.ListBuffer /** * List 有序不唯一，元素可重复 */ object ScalaList2 { case class stu(name: String, age: Int) 阅读全文

posted @ 2020-01-20 13:05 Xiaohu_BigData 阅读(930) 评论(0) 推荐(0) 编辑

Scala查看源码

摘要： package com.wyh.day01 /** * 1、代码格式化的快捷键 ctrl+alt+L\ * 2、scala查看源代码的快捷键 ctrl+b */ object ScalaLookSource { def main(args: Array[String]): Unit = { var 阅读全文

posted @ 2020-01-20 13:01 Xiaohu_BigData 阅读(473) 评论(0) 推荐(0) 编辑

Scala变量补充

摘要： package com.wyh.day01 object ScalaLanguage { def main(args: Array[String]): Unit = { /** * 定义变量和常量 * * 定义变量是 var * 定义常量是 val * * 区别： * 1、被var修饰的变量是可以重阅读全文

posted @ 2020-01-20 12:59 Xiaohu_BigData 阅读(147) 评论(0) 推荐(0) 编辑

公告