摘要: 需求:通过Flink处理流数据,处理结果写入HBase 实现:通过继承RichSinkFunction类,自定义Sink 1.常量类 public class HBaseConstant { public static final String TABLE_NAME = "tableName"; p 阅读全文
posted @ 2020-11-09 00:04 yangyh11 阅读(1011) 评论(0) 推荐(0) 编辑
摘要: 一、基于Standalone提交任务 1.基于Standalone-client提交任务 --deploy-mode:不写,默认就是client提交 也可以配置:--deploy-mode client ./spark-submit --master spark://node1:7077 \ --c 阅读全文
posted @ 2020-10-27 00:00 yangyh11 阅读(400) 评论(0) 推荐(0) 编辑
摘要: --master master的地址,提交任务到哪里执行,如:spark://host:port,yarn,local --deploy-mode client | cluster 在本地启动driver或在cluster上启动,默认是client --class 应用程序的主类,仅针对Java或S 阅读全文
posted @ 2020-10-26 23:12 yangyh11 阅读(208) 评论(0) 推荐(0) 编辑
摘要: Spark Spark是专为大规模数据处理而设计的快速通用的计算引擎。 Spark拥有MapReduce都具有的优点,但不同的是Spark的job中间处理结果可以保存在内存中,从而不再需要读取HDFS。 Spark能更好的适用于数据挖掘与机器学习等需要迭代的算法。 一、Spark特点 1.速度快。 阅读全文
posted @ 2020-10-25 21:32 yangyh11 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 一、Flink的定义 Flnk是一个分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在常见集群环境中运行,并能以内存速度和任意规模进行计算。 二、有界流和无界流 Flink的核心是流处理,当然也支持批处理。Flink的本质是流处理,它将批处理看作是流处理的特殊情况,即有界流 阅读全文
posted @ 2020-09-30 00:14 yangyh11 阅读(536) 评论(0) 推荐(0) 编辑
摘要: Java8引入了新的时间和日期API,非常方便好用。在这里记录下新的api在工作中常用的操作 一、获取当前时间和日期 1.获取当前日期 LocalDate now = LocalDate.now(); System.out.println(now); System.out.println(now.g 阅读全文
posted @ 2020-09-26 22:09 yangyh11 阅读(269) 评论(0) 推荐(0) 编辑
摘要: RDD Resilient Distributed DataSet:弹性分布式数据集 弹性:Spark可以通过重新安排计算来自动重建丢失的分区。 分布式:集群中跨多个机器分区存储。 RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度。 RDD不存储真正要计算的数据,而是记 阅读全文
posted @ 2020-09-06 15:17 yangyh11 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 一、Tranformation算子 Transformations类算子叫做转换算子,该类算子是延迟加载,也叫懒加载,必须有action类算子才会触发。 1.1 filter 保留符合条件的数据,类似于SQL中的where子句。true保留,false过滤掉 val rdd = sc.makeRDD 阅读全文
posted @ 2020-09-01 23:24 yangyh11 阅读(374) 评论(0) 推荐(0) 编辑
摘要: Spark集群管理器,总有一款适合你。 Spark运行模式有本地运行和集群运行两种。在实际生产开发中,我们都会选择在集群运行,本地模式仅用于本地测试。 Spark集群管理器: Standalone模式 Yarn K8s Mesos 本文记录前三种集群的搭建,现在主流是Yarn,k8s是趋势,越来越火 阅读全文
posted @ 2020-08-22 21:31 yangyh11 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 根据rowKey作为过滤条件查询HBase,需要用到过滤器RowFilter。 RowFilter属于比较过滤器的一种,比较过滤器继承自CompareFilter。创建一个比较过滤器需要传入两个参数,分别是比较运算符和比较器。 一、需求背景 车联网项目离线数据分析,采用Spark做分析引擎,数据源是 阅读全文
posted @ 2020-07-18 16:50 yangyh11 阅读(9581) 评论(0) 推荐(0) 编辑