yangyh11 - 博客园

2020年11月9日

摘要：需求：通过Flink处理流数据，处理结果写入HBase 实现：通过继承RichSinkFunction类，自定义Sink 1.常量类 public class HBaseConstant { public static final String TABLE_NAME = "tableName"; p 阅读全文

posted @ 2020-11-09 00:04 yangyh11 阅读(1011) 评论(0) 推荐(0) 编辑

2020年10月27日

【Spark学习笔记】04-提交Spark任务的两种模式详解

摘要：一、基于Standalone提交任务 1.基于Standalone-client提交任务 --deploy-mode：不写，默认就是client提交也可以配置：--deploy-mode client ./spark-submit --master spark://node1:7077 \ --c 阅读全文

posted @ 2020-10-27 00:00 yangyh11 阅读(400) 评论(0) 推荐(0) 编辑

2020年10月26日

【Spark学习笔记】03-Spark任务提交参数

摘要： --master master的地址，提交任务到哪里执行，如：spark://host:port,yarn,local --deploy-mode client | cluster 在本地启动driver或在cluster上启动，默认是client --class 应用程序的主类，仅针对Java或S 阅读全文

posted @ 2020-10-26 23:12 yangyh11 阅读(208) 评论(0) 推荐(0) 编辑

2020年10月25日

【Spark学习笔记】01-Spark简介

摘要： Spark Spark是专为大规模数据处理而设计的快速通用的计算引擎。 Spark拥有MapReduce都具有的优点，但不同的是Spark的job中间处理结果可以保存在内存中，从而不再需要读取HDFS。 Spark能更好的适用于数据挖掘与机器学习等需要迭代的算法。一、Spark特点 1.速度快。阅读全文

posted @ 2020-10-25 21:32 yangyh11 阅读(162) 评论(0) 推荐(0) 编辑

2020年9月30日

Flink核心概念

摘要：一、Flink的定义 Flnk是一个分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink能在常见集群环境中运行，并能以内存速度和任意规模进行计算。二、有界流和无界流 Flink的核心是流处理，当然也支持批处理。Flink的本质是流处理，它将批处理看作是流处理的特殊情况，即有界流阅读全文

posted @ 2020-09-30 00:14 yangyh11 阅读(536) 评论(0) 推荐(0) 编辑

2020年9月26日

【Java8新特性】Java新的时间日期API

摘要： Java8引入了新的时间和日期API，非常方便好用。在这里记录下新的api在工作中常用的操作一、获取当前时间和日期 1.获取当前日期 LocalDate now = LocalDate.now(); System.out.println(now); System.out.println(now.g 阅读全文

posted @ 2020-09-26 22:09 yangyh11 阅读(269) 评论(0) 推荐(0) 编辑

2020年9月6日

【Spark学习笔记】05-Spark RDD

摘要： RDD Resilient Distributed DataSet：弹性分布式数据集弹性：Spark可以通过重新安排计算来自动重建丢失的分区。分布式：集群中跨多个机器分区存储。 RDD是一个基本的抽象，操作RDD就像操作一个本地集合一样，降低了编程的复杂度。 RDD不存储真正要计算的数据，而是记阅读全文

posted @ 2020-09-06 15:17 yangyh11 阅读(170) 评论(0) 推荐(0) 编辑

2020年9月1日

【Spark学习笔记】06-Spark常用算子

摘要：一、Tranformation算子 Transformations类算子叫做转换算子，该类算子是延迟加载，也叫懒加载，必须有action类算子才会触发。 1.1 filter 保留符合条件的数据，类似于SQL中的where子句。true保留，false过滤掉 val rdd = sc.makeRDD 阅读全文

posted @ 2020-09-01 23:24 yangyh11 阅读(374) 评论(0) 推荐(0) 编辑

2020年8月22日

【Spark学习笔记】02-Spark集群搭建

摘要： Spark集群管理器，总有一款适合你。 Spark运行模式有本地运行和集群运行两种。在实际生产开发中，我们都会选择在集群运行，本地模式仅用于本地测试。 Spark集群管理器： Standalone模式 Yarn K8s Mesos 本文记录前三种集群的搭建，现在主流是Yarn，k8s是趋势，越来越火阅读全文

posted @ 2020-08-22 21:31 yangyh11 阅读(271) 评论(0) 推荐(0) 编辑

2020年7月18日

【大数据-HBase】HBase根据rowKey模糊查询

摘要：根据rowKey作为过滤条件查询HBase，需要用到过滤器RowFilter。 RowFilter属于比较过滤器的一种，比较过滤器继承自CompareFilter。创建一个比较过滤器需要传入两个参数，分别是比较运算符和比较器。一、需求背景车联网项目离线数据分析，采用Spark做分析引擎，数据源是阅读全文

posted @ 2020-07-18 16:50 yangyh11 阅读(9581) 评论(0) 推荐(0) 编辑

公告