问题不大1 - 博客园

摘要： 1.声明变量：val var 2.数据类型 3.if条件表达式 scala中没有switch语句，但是有强大的模式匹配 4.块表达式和赋值 5.输入和输出 6.while循环、for循环 7.高级for循环和for推导式 8.函数 9.默认参数与带名参数 10.变长参数 11.过程 12.懒值 13 阅读全文

posted @ 2019-05-07 10:23 问题不大1 阅读(192) 评论(0) 推荐(0) 编辑

2019年4月29日

spark算子

摘要： 1.map 一条一条读取 2.flatMap 扁平化 3.mapPartitions 一次读取一个分区数据 4.mapPartitionsWithIndex 一次读取一个分区数据，并且知道是哪个分区的 5.reduce 6.reduceBykey 7.union 合并，但不去重 8.join 9.g 阅读全文

posted @ 2019-04-29 18:47 问题不大1 阅读(246) 评论(0) 推荐(0) 编辑

2019年4月27日

sparkstreaming

摘要： Spark Streaming 一、大数据实时计算 1.实时计算 Spark Streaming ,其实就是一种spark提供的，对于大数据，进行实时计算的一种框架。他的底层，其实也是基于我们之前讲解的Spark core的。基本的计算模型，还是基于内存的大数据实时计算模型。而且，他的底层的组件或者阅读全文

posted @ 2019-04-27 20:09 问题不大1 阅读(448) 评论(0) 推荐(0) 编辑

sparksql

摘要： Spark SQL 一、sparkSQL的特点 1.支持多种数据源：hive RDD Partquet JSON JDBC 2.多种性能优化技术：in-memory columnar storage \ byte-code generation \ cost model 动态评估 3.组件扩展性：对于SQL的语法解析器、分析器、以及优化器，用户都可以自己重新开发，并且动态扩展 Spark sq... 阅读全文

posted @ 2019-04-27 20:08 问题不大1 阅读(646) 评论(0) 推荐(0) 编辑

spark

摘要： SPARK核心编程一、spark基本工作原理与RDD 1.Spark的基本工作原理 1.分布式（RDD的partition） 2.主要是基于内存（少数情况下数基于磁盘） 3.迭代式计算（RDD->RDD->RDD）客户端（client）：我们在本地编写了spark程序，然后必须在某台能够连接spark的机器上提交spark程序 Spark程序被提交到spark集群上进行运算 spark... 阅读全文

posted @ 2019-04-27 15:02 问题不大1 阅读(438) 评论(0) 推荐(0) 编辑

问题不大

公告