摘要: 1.1.1.Executor进程专属 如图所示: 1.1.2. 支持多种资源管理器 如图所示: 1.1.3. Job提交就近原则 如图所示: 1.1.4. 移动程序而非移动数据的原则执行 如图所示: 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 1.1. Spark部署模式 Spark支持多种集群管理器(Cluster Manager),主要为: Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力。 local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量。 local[*] 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 1.1.1.计算流程 1.1.2. 从代码构建DAG图 Spark program Val lines1 = sc.textFile(inputPath1).map(...).map(...) Val lines2 = sc.textFile(inputPath2).map(...) Val lin 阅读全文
posted @ 2019-09-11 00:34 DaBai的黑屋 阅读(747) 评论(0) 推荐(0) 编辑
摘要: 1.1.1. Application/App:Spark应用程序 1.1.2. Driver:驱动程序 1.1.3. Cluster Manager:资源管理器 指的是在集群上获取资源的外部服务,常用的有: 如下图所示: 1.1.4. Worker:计算节点 集群中任何可以运行Application 阅读全文
posted @ 2019-09-11 00:33 DaBai的黑屋 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql 阅读全文
posted @ 2019-09-11 00:32 DaBai的黑屋 阅读(468) 评论(0) 推荐(0) 编辑
摘要: 1.1.1.读取文本数据 spark应用可以监听某一个目录,而web服务在这个目录上实时产生日志文件,这样对于spark应用来说,日志文件就是实时数据 Structured Streaming支持的文件类型有text,csv,json,parquet ●准备工作 在people.json文件输入如下 阅读全文
posted @ 2019-09-11 00:31 DaBai的黑屋 阅读(852) 评论(0) 推荐(0) 编辑
摘要: 1 StructuredStreaming的应用场景 5.输出模式 阅读全文
posted @ 2019-09-11 00:30 DaBai的黑屋 阅读(663) 评论(0) 推荐(1) 编辑
摘要: 1.1. 计算操作 获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致,不再赘述 ●官网示例代码: caseclassDeviceData(device:String, deviceType:String, signal:Double, time:DateTi 阅读全文
posted @ 2019-09-11 00:29 DaBai的黑屋 阅读(486) 评论(0) 推荐(0) 编辑
摘要: Structured Streaming曲折发展史 1.1. Spark Streaming 在2.0之前,Spark Streaming作为核心API的扩展,针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据,并切分成很多小的bat 阅读全文
posted @ 2019-09-11 00:28 DaBai的黑屋 阅读(1019) 评论(1) 推荐(1) 编辑
摘要: 编程模型 ●编程模型概述 一个流的数据源从逻辑上来说就是一个不断增长的动态表格,随着时间的推移,新数据被持续不断地添加到表格的末尾。 用户可以使用 Dataset/DataFrame 函数式API或者 SQL 来对这个动态数据源进行实时查询。每次查询在逻辑上就是对当前的表格内容执行一次 SQL 查询 阅读全文
posted @ 2019-09-11 00:28 DaBai的黑屋 阅读(286) 评论(0) 推荐(0) 编辑
摘要: DStream的相关操作: DStream上的操作与RDD的类似,分为以下两种: DStream上的操作与RDD的类似,分为以下两种: Transformations(转换) Output Operations(输出)/Action 1.1Transformations ●常见Transformat 阅读全文
posted @ 2019-09-11 00:27 DaBai的黑屋 阅读(654) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming的基础抽是DStream(Discretized Stream,离散化数据流,连续不断的数据流),代表持续性的数据流和经过各种Spark算子操作后的结果数据流 1.DStream本质上就是一系列时间上连续的RDD 2.对DStream的数据的进行RDD操作 3.容错性 阅读全文
posted @ 2019-09-11 00:26 DaBai的黑屋 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 1-- 原理: <!--more--> Spark Streaming中,会有一个接收器组件Receiver,作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream DStream会被按照时间间隔划分成一批一批的RDD,当批处理间隔缩短到 阅读全文
posted @ 2019-09-11 00:25 DaBai的黑屋 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 文件的路径好像有规律 难道要把结构化数据放置在这个路径下? 不一定 外部表指定文件路径 数据库.表 》 /user/hive/warehouse/数据库.db/表名 数据库.表 》 /user/hive/warehouse/数据库.db/表名 建表的字段顺序和类型一定要和文件一致。 create t 阅读全文
posted @ 2019-09-11 00:23 DaBai的黑屋 阅读(1960) 评论(0) 推荐(0) 编辑
摘要: 数据类型 要求:字段的类型和顺序要和结构化文件保持一致 hive会尝试转换 不保证转换成功 如果成功就显示 如果失败就显示null hive除了支持sql类型 还支持java类型 大小写不敏感<!--more--> hive除了支持基本类型 还支持复合类型(map array) 针对复合类型要跟分隔 阅读全文
posted @ 2019-09-11 00:23 DaBai的黑屋 阅读(370) 评论(0) 推荐(0) 编辑
摘要: Hive的数据模型-数据库 类似传统数据库的DataBase 默认数据库"default"<!--more--> 使用#hive命令后,不使用hive>use <数据库名>,系统默认的数据库。可以显式使用hive> use default; 创建一个新库 类似传统数据库的DataBase 默认数据库 阅读全文
posted @ 2019-09-11 00:22 DaBai的黑屋 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 数据类型: 基本数类型: tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boolean:布尔类型 string:字符串类型 tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boo 阅读全文
posted @ 2019-09-11 00:21 DaBai的黑屋 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-09-11 00:20 DaBai的黑屋 阅读(129) 评论(0) 推荐(0) 编辑
摘要: ●kafka文档 Kafka Connect: <!--more--> https://kafka.apache.org/documentation/#connect http://docs.confluent.io/2.0.0/connect/connect-jdbc/docs/index.htm 阅读全文
posted @ 2019-09-11 00:19 DaBai的黑屋 阅读(161) 评论(0) 推荐(0) 编辑
摘要: ●常用命令 #启动kafka /export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties #停止kafka /export/servers/kafka/b 阅读全文
posted @ 2019-09-11 00:18 DaBai的黑屋 阅读(301) 评论(0) 推荐(0) 编辑
Live2D