2019 年 9月 11 日随笔档案 - DaBai的黑屋

2019年9月11日

摘要： 1.1.1.Executor进程专属如图所示: 1.1.2. 支持多种资源管理器如图所示: 1.1.3. Job提交就近原则如图所示: 1.1.4. 移动程序而非移动数据的原则执行如图所示: 阅读全文

posted @ 2019-09-11 00:35 DaBai的黑屋阅读(439) 评论(0) 推荐(0) 编辑

摘要： 1.1. Spark部署模式 Spark支持多种集群管理器（Cluster Manager），主要为： Master URL Meaning local 在本地运行，只有一个工作进程，无并行计算能力。 local[K] 在本地运行，有K个工作进程，通常设置K为机器的CPU核心数量。 local[*] 阅读全文

posted @ 2019-09-11 00:35 DaBai的黑屋阅读(413) 评论(0) 推荐(0) 编辑

Spark运行流程

摘要： 1.1.1.计算流程 1.1.2. 从代码构建DAG图 Spark program Val lines1 = sc.textFile(inputPath1).map(...).map(...) Val lines2 = sc.textFile(inputPath2).map(...) Val lin 阅读全文

posted @ 2019-09-11 00:34 DaBai的黑屋阅读(749) 评论(0) 推荐(0) 编辑

Spark专业术语定义

摘要： 1.1.1. Application/App：Spark应用程序 1.1.2. Driver：驱动程序 1.1.3. Cluster Manager：资源管理器指的是在集群上获取资源的外部服务，常用的有：如下图所示: 1.1.4. Worker：计算节点集群中任何可以运行Application 阅读全文

posted @ 2019-09-11 00:33 DaBai的黑屋阅读(343) 评论(0) 推荐(0) 编辑

Structured Streaming 实战案例读取Scoker

摘要： 1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示： import org.apache.spark.SparkContext import org.apache.spark.sql 阅读全文

posted @ 2019-09-11 00:32 DaBai的黑屋阅读(474) 评论(0) 推荐(0) 编辑

Structured Streaming 实战案例读取文本数据

摘要： 1.1.1.读取文本数据 spark应用可以监听某一个目录，而web服务在这个目录上实时产生日志文件，这样对于spark应用来说，日志文件就是实时数据 Structured Streaming支持的文件类型有text，csv，json，parquet ●准备工作在people.json文件输入如下阅读全文

posted @ 2019-09-11 00:31 DaBai的黑屋阅读(858) 评论(0) 推荐(0) 编辑

StructuredStreaming总结

摘要： 1 StructuredStreaming的应用场景 5.输出模式阅读全文

posted @ 2019-09-11 00:30 DaBai的黑屋阅读(667) 评论(0) 推荐(1) 编辑

Structured Streaming 计算操作And输出操作

摘要： 1.1. 计算操作获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致，不再赘述 ●官网示例代码： caseclassDeviceData(device:String, deviceType:String, signal:Double, time:DateTi 阅读全文

posted @ 2019-09-11 00:29 DaBai的黑屋阅读(489) 评论(0) 推荐(0) 编辑

Structured Streaming曲折发展史

摘要： Structured Streaming曲折发展史 1.1. Spark Streaming 在2.0之前，Spark Streaming作为核心API的扩展，针对实时数据流，提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据，并切分成很多小的bat 阅读全文

posted @ 2019-09-11 00:28 DaBai的黑屋阅读(1036) 评论(1) 推荐(1) 编辑

Structured Streaming编程模型

摘要：编程模型 ●编程模型概述一个流的数据源从逻辑上来说就是一个不断增长的动态表格，随着时间的推移，新数据被持续不断地添加到表格的末尾。用户可以使用 Dataset/DataFrame 函数式API或者 SQL 来对这个动态数据源进行实时查询。每次查询在逻辑上就是对当前的表格内容执行一次 SQL 查询阅读全文

posted @ 2019-09-11 00:28 DaBai的黑屋阅读(296) 评论(0) 推荐(0) 编辑

SparkStreaming DStream相关操作

摘要： DStream的相关操作： DStream上的操作与RDD的类似，分为以下两种： DStream上的操作与RDD的类似，分为以下两种： Transformations(转换) Output Operations(输出)/Action 1.1Transformations ●常见Transformat 阅读全文

posted @ 2019-09-11 00:27 DaBai的黑屋阅读(658) 评论(0) 推荐(0) 编辑

SparkStreaming的数据抽象 DStream

摘要： Spark Streaming的基础抽是DStream(Discretized Stream，离散化数据流，连续不断的数据流)，代表持续性的数据流和经过各种Spark算子操作后的结果数据流 1.DStream本质上就是一系列时间上连续的RDD 2.对DStream的数据的进行RDD操作 3.容错性阅读全文

posted @ 2019-09-11 00:26 DaBai的黑屋阅读(513) 评论(0) 推荐(0) 编辑

Spark Streaming原理

摘要： 1-- 原理：  Spark Streaming中，会有一个接收器组件Receiver，作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream DStream会被按照时间间隔划分成一批一批的RDD，当批处理间隔缩短到阅读全文

posted @ 2019-09-11 00:25 DaBai的黑屋阅读(204) 评论(0) 推荐(0) 编辑

如何把hdfs上的一个结构化数据映射为hive的一张表

摘要：文件的路径好像有规律难道要把结构化数据放置在这个路径下？不一定外部表指定文件路径数据库.表》 /user/hive/warehouse/数据库.db/表名数据库.表》 /user/hive/warehouse/数据库.db/表名建表的字段顺序和类型一定要和文件一致。 create t 阅读全文

posted @ 2019-09-11 00:23 DaBai的黑屋阅读(1965) 评论(0) 推荐(0) 编辑

Hive 基本操作 DDL

摘要：数据类型要求：字段的类型和顺序要和结构化文件保持一致 hive会尝试转换不保证转换成功如果成功就显示如果失败就显示null hive除了支持sql类型还支持java类型大小写不敏感 hive除了支持基本类型还支持复合类型（map array）针对复合类型要跟分隔阅读全文

posted @ 2019-09-11 00:23 DaBai的黑屋阅读(372) 评论(0) 推荐(0) 编辑

Hive数据模型

摘要： Hive的数据模型-数据库类似传统数据库的DataBase 默认数据库"default" 使用#hive命令后，不使用hive>use <数据库名>，系统默认的数据库。可以显式使用hive> use default; 创建一个新库类似传统数据库的DataBase 默认数据库阅读全文

posted @ 2019-09-11 00:22 DaBai的黑屋阅读(311) 评论(0) 推荐(0) 编辑

Hive的数据类型

摘要：数据类型：基本数类型： tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boolean：布尔类型 string：字符串类型 tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boo 阅读全文

posted @ 2019-09-11 00:21 DaBai的黑屋阅读(255) 评论(0) 推荐(0) 编辑

Kafka总结

摘要：阅读全文

posted @ 2019-09-11 00:20 DaBai的黑屋阅读(130) 评论(0) 推荐(0) 编辑

Kafka整合文档

摘要： ●kafka文档 Kafka Connect:  https://kafka.apache.org/documentation/#connect http://docs.confluent.io/2.0.0/connect/connect-jdbc/docs/index.htm 阅读全文

posted @ 2019-09-11 00:19 DaBai的黑屋阅读(163) 评论(0) 推荐(0) 编辑

Kafka常用命令

摘要： ●常用命令 #启动kafka /export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties #停止kafka /export/servers/kafka/b 阅读全文

posted @ 2019-09-11 00:18 DaBai的黑屋阅读(302) 评论(0) 推荐(0) 编辑

DaBai的黑屋

无法浪费时间，浪费的只是自己！

公告