2019年7月19日

10 Spark的理解

摘要: 1、Spark是一个计算框架 MR是批量计算框架,Spark-Core是批量计算框架 Spark相比MR速度快,MR作为一个job,在中间环节中结果是落地的(会经过磁盘交换),Spark计算过程中数据流转都是在内存的(减少了对HDFS的依赖) MR:多进程模型(缺点:每个任务启动时间长,所以不适合于 阅读全文

posted @ 2019-07-19 14:59 农夫三拳有點疼 阅读(41) 评论(0) 推荐(0) 编辑

23 SparkStreaming案例1

摘要: 0 Strom VS SparkStreaming Storm 是一个纯实时的流式处理框,SparkStreaming 是一个准实时的流式处理框架,(微批处理:可以设置时间间隔) SparkStreaming 的吞吐量比 Storm 高 Storm 的事务机制要比 SparkStreaming 好( 阅读全文

posted @ 2019-07-19 14:58 农夫三拳有點疼 阅读(20) 评论(0) 推荐(0) 编辑

0 安装CM+CDH6.2.0

摘要: CM+CDH6.2.0环境准备 一 虚拟机及CentOs7配置 CentOS下载地址 master(16g+80g+2cpu+2核)+2台slave(8g+60g+2cpu+2核) 1.1 打开"VMware Workstation",选择“创建新的虚拟机” 1.2 选择“典型”选项,点击“下一步 阅读全文

posted @ 2019-07-19 14:57 农夫三拳有點疼 阅读(314) 评论(0) 推荐(1) 编辑

11 Spark案例

摘要: 0 搭建项目 pom参考 <dependencies> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.25</version> </dependency> < 阅读全文

posted @ 2019-07-19 14:55 农夫三拳有點疼 阅读(147) 评论(0) 推荐(0) 编辑

25 SparkSQL案例

摘要: 0 简介 Spark SQL 的前身是 shark,Shark 是基于 Spark 计算框架之上且兼容 Hive 语法的 SQL 执行引擎,由于底层的计算采用了 Spark,性能比 MapReduce 的 Hive 普遍快 2 倍以上,当数据全部 load 在内存的话,将快 10 倍以上,因此 Sh 阅读全文

posted @ 2019-07-19 14:54 农夫三拳有點疼 阅读(18) 评论(0) 推荐(0) 编辑

导航