摘要: Spark SQL and DataFrame 1. 目标 1.1. 掌握Spark SQL的原理 1.2. 掌握DataFrame数据结构和使用方式 1.3. 熟练使用Spark SQL完成计算任务 2. Spark SQL 2.1. Spark SQL概述 2.1.1. 什么是Spark SQL 阅读全文
posted @ 2019-03-15 17:33 烽火连城516 阅读(283) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 1. 目标 1.1. 掌握Spark Streaming的原理 1.2. 熟练使用Spark Streaming完成流式计算任务 2. Spark Streaming介绍 2.1. Spark Streaming概述 2.1.1. 什么是Spark Streaming 阅读全文
posted @ 2019-03-15 17:31 烽火连城516 阅读(308) 评论(0) 推荐(0) 编辑
摘要: Spark计算模型 1. 目标 1.1. 熟练使用RDD的算子完成计算 1.2. 掌握RDD的原理 2. 弹性分布式数据集RDD 2.1. RDD概述 2.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它 阅读全文
posted @ 2019-03-15 17:22 烽火连城516 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1.kafka的message包括哪些信息? 一个Kafka的Message由一个固定长度的header和一个可变长的消息体body组成,header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc 阅读全文
posted @ 2019-03-15 17:10 烽火连城516 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 1.测试或实验性质的本地运行模式(单机) 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上是否有问题。 其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。 如果是local 阅读全文
posted @ 2019-03-14 16:41 烽火连城516 阅读(201) 评论(0) 推荐(0) 编辑
摘要: Spark源码编译: dev/目录下执行make-distribution.sh./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz Pyarn -Phadoop-2.6-Phive -Phive-thriftserver -Dhadoop.v 阅读全文
posted @ 2019-03-08 17:28 烽火连城516 阅读(161) 评论(0) 推荐(0) 编辑
摘要: HDFS HDFS架构 1、Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2、一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> 128M + 2M3、NameNode、DataNode负责内容:NN:1)负责客户端请求的响应2)负责 阅读全文
posted @ 2019-03-06 14:37 烽火连城516 阅读(602) 评论(0) 推荐(0) 编辑
摘要: standalone hdfs:namenode是主节点进程,datanode是从节点进程 yarn:resourcemanager是主节点进程,nodemanager是从节点进程 hdfs和yarn是hadoop里面的节点进程信息 在spark里面有 master:主节点进程 worker:从节点 阅读全文
posted @ 2019-03-05 16:14 烽火连城516 阅读(1114) 评论(0) 推荐(0) 编辑
摘要: Maven环境部署如下: maven下载并进行环变量配置 export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9export PATH=$MAVEN_HOME/bin:$PATH 执行该命令source ~/.bash_profile 使环境变量生 阅读全文
posted @ 2019-03-01 14:34 烽火连城516 阅读(766) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming学习笔记 liunx系统的习惯创建hadoop用户在hadoop根目录(/home/hadoop)上创建如下目录app 存放所有软件的安装目录 app/tmp 存放临时文件 data 存放测试数据lib 存放开发用的jar包software 存放软件安装包的目录sour 阅读全文
posted @ 2019-02-28 15:26 烽火连城516 阅读(251) 评论(0) 推荐(0) 编辑