农夫三拳有點疼

10 Spark的理解

摘要： 1、Spark是一个计算框架 MR是批量计算框架，Spark-Core是批量计算框架 Spark相比MR速度快，MR作为一个job，在中间环节中结果是落地的（会经过磁盘交换），Spark计算过程中数据流转都是在内存的（减少了对HDFS的依赖） MR：多进程模型（缺点：每个任务启动时间长，所以不适合于阅读全文

posted @ 2019-07-19 14:59 农夫三拳有點疼阅读(43) 评论(0) 推荐(0) 编辑

23 SparkStreaming案例1

摘要： 0 Strom VS SparkStreaming Storm 是一个纯实时的流式处理框，SparkStreaming 是一个准实时的流式处理框架，（微批处理：可以设置时间间隔） SparkStreaming 的吞吐量比 Storm 高 Storm 的事务机制要比 SparkStreaming 好（阅读全文

posted @ 2019-07-19 14:58 农夫三拳有點疼阅读(22) 评论(0) 推荐(0) 编辑

0 安装CM+CDH6.2.0

摘要： CM+CDH6.2.0环境准备一虚拟机及CentOs7配置 CentOS下载地址 master(16g+80g+2cpu+2核)+2台slave(8g+60g+2cpu+2核) 1.1 打开"VMware Workstation"，选择“创建新的虚拟机” 1.2 选择“典型”选项，点击“下一步阅读全文

posted @ 2019-07-19 14:57 农夫三拳有點疼阅读(325) 评论(0) 推荐(1) 编辑

11 Spark案例

摘要： 0 搭建项目 pom参考 <dependencies> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.25</version> </dependency> < 阅读全文

posted @ 2019-07-19 14:55 农夫三拳有點疼阅读(149) 评论(0) 推荐(0) 编辑

25 SparkSQL案例

摘要： 0 简介 Spark SQL 的前身是 shark，Shark 是基于 Spark 计算框架之上且兼容 Hive 语法的 SQL 执行引擎，由于底层的计算采用了 Spark，性能比 MapReduce 的 Hive 普遍快 2 倍以上，当数据全部 load 在内存的话，将快 10 倍以上，因此 Sh 阅读全文

posted @ 2019-07-19 14:54 农夫三拳有點疼阅读(40) 评论(0) 推荐(0) 编辑