2020年9月8日

摘要：本篇来介绍一下通过Spark来读取和HDFS上的数据，主要包含四方面的内容：将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。 1、启动Hadoop 首先启动咱们的Hadoop，在hadoop的目录下执行下面的命令： rm -rf tm 阅读全文

posted @ 2020-09-08 17:08 大码王阅读(1033) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （26）Flink采集kafka数据后存到mongodb

摘要：实体类： import java.io.Serializable; public class FlinkDao implements Serializable { private String id; private String startMoney; private String startTi 阅读全文

posted @ 2020-09-08 16:18 大码王阅读(1654) 评论(0) 推荐(1) 编辑

项目实战从 0 到 1 学习之Flink（25）Flink从redis中获取数据作为source源

摘要： redis中的数据：需要实现SourceFunction接口，指定泛型<>,也就是获取redis里的数据，处理完后的数据输入的数据类型这里我们需要的是（我们需要返回kv对的，就要考虑HashMap）pom.xml <!-- https://mvnrepository.com/artifact/re 阅读全文

posted @ 2020-09-08 16:08 大码王阅读(838) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （24）Flink将kafka的数据存到redis中

摘要： 1、依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.2</flink.version> <slf4j.version>1.7.7</slf4j. 阅读全文

posted @ 2020-09-08 16:06 大码王阅读(605) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （23）Flink 读取hive并写入hive

摘要： 1，读取实现了，也是找的资料，核心就是实现了 HCatInputFormatHCatInputFormatBase 上面这两个类，底层也是继承实现了 RichInputFormat： public abstract class HCatInputFormatBase<T> extends Rich 阅读全文

posted @ 2020-09-08 15:49 大码王阅读(4124) 评论(1) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（22）读mysql并写入mysql

摘要：在Flink文档中，提供connector读取源数据和把处理结果存储到外部系统中。但是没有提供数据库的connector，如果要读写数据库，官网给出了异步IO(Asynchronous I/O)专门用于访问外部数据，详细可看： https://ci.apache.org/projects/flink 阅读全文

posted @ 2020-09-08 15:41 大码王阅读(672) 评论(1) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （21）Flink读HBase并写入HBase

摘要：这里读HBase提供两种方式，一种是继承RichSourceFunction，重写父类方法，一种是实现OutputFormat接口，具体代码如下：方式一：继承RichSourceFunction package com.my.flink.utils.streaming.hbase; import 阅读全文

posted @ 2020-09-08 15:38 大码王阅读(902) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （20）Flink读取hdfs文件

摘要：接一下以一个示例配置来介绍一下如何以Flink连接HDFS 1. 依赖HDFS pom.xml 添加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-hadoop-compatibility_2.11</art 阅读全文

posted @ 2020-09-08 15:33 大码王阅读(3219) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（19） Flink 读取Kafka生成的数据，并进行汇总

摘要：今天介绍用 Flink 读取Kafka生成的数据，并进行汇总的案例第一步：环境准备，kafka，flink，zookeeper。我这边是用的CDH环境，kafka跟zookeeper 都安装完毕，并测试可以正常使用第二步：用kafka创建一个生产者进行消息生产 ./kafka-console-p 阅读全文

posted @ 2020-09-08 15:27 大码王阅读(736) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （18）Flink SQL读取kafka数据并通过JDBC方式写入Clickhouse实时场景的简单实例

摘要：说明读取kafka数据并且经过ETL后，通过JDBC存入clickhouse中代码定义POJO类： 12345678 public class Student { private int id; private String name; private String password; pri 阅读全文

posted @ 2020-09-08 15:22 大码王阅读(2556) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（17）Flink实时日志数据写入Clickhouse

摘要：一、背景每天上百亿的日志数据实时查询是个挑战，在架构设计上采用了Kafka + Flink + Clickhouse+Redash，实现海量数据的实时分析。计算层，我们开发了基于Flink计算引擎的实时数据平台，简化开发流程，数据通过配置化实现动态Schema生成，底层数据解析统一，无需重复造轮子阅读全文

posted @ 2020-09-08 15:19 大码王阅读(4387) 评论(6) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （16）Flink DataStream之Kafka数据写入HDFS，并分区到Hive

摘要：因业务要求，我们需要从Kafka中读取数据，变换后最终Sink到业务的消息队列中，为保证数据的可靠性，我们同时对Sink的结果数据，进行保存。最终选择将流数据Sink到HDFS上，在Flink中，同时也提供了HDFS Connector。下面就介绍如何将流式数据写入HDFS，同时将数据load到Hi 阅读全文

posted @ 2020-09-08 09:30 大码王阅读(785) 评论(0) 推荐(0) 编辑

2020年9月7日

项目实战从 0 到 1 学习之Flink（15）Flink读取kafka数据并写入HDFS

摘要： 1.概述最近有同学留言咨询，Flink消费Kafka的一些问题，今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据，通过Flink任务来消费并存储到HDFS上。 2.内容这里举个消费Kafka的数据的场景。比如，电商平台、游戏平台产生的用户数据，入库到Kafka中的Topic进行存储，然阅读全文

posted @ 2020-09-07 18:22 大码王阅读(1075) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（14）Flink 读取kafka数据，写入到Hbase

摘要：概述环境说明 scala: 2.12.8 linux下scala安装部署 flink : 1.8.1 Flink1.8.1 集群部署 kafka_2.12-2.2.0 kafka_2.12-2.2.0 集群部署 hbase 2.1 hbase 2.1 环境搭建–完全分布式模式 Advanced - 阅读全文

posted @ 2020-09-07 18:19 大码王阅读(981) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （13）Flink 读取 Kafka 数据写入到 RabbitMQ FlinkKafkaRabbitMQ大数据流式计算

摘要：前言之前有文章《从0到1学习Flink》—— Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去，当然我们常用的消息队列可不止这一种，还有 RocketMQ、RabbitMQ 等，刚好 Flink 也支持将数据写入到 RabbitMQ，所以今天我阅读全文

posted @ 2020-09-07 18:10 大码王阅读(1489) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （12）Flink 读取 Kafka 数据批量写入到 MySQL

摘要：前言之前其实在《从0到1学习Flink》—— 如何自定义 Data Sink ？文章中其实已经写了点将数据写入到 MySQL，但是一些配置化的东西当时是写死的，不能够通用，最近知识星球里有朋友叫我: 写个从 kafka 中读取数据，经过 Flink 做个预聚合，然后创建数据库连接池将数据批量写阅读全文

posted @ 2020-09-07 18:08 大码王阅读(642) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（11）Flink 写入数据到 Kafka

摘要：前言之前文章《从0到1学习Flink》—— Flink 写入数据到 ElasticSearch 写了如何将 Kafka 中的数据存储到 ElasticSearch 中，里面其实就已经用到了 Flink 自带的 Kafka source connector（FlinkKafkaConsumer）。阅读全文

posted @ 2020-09-07 18:02 大码王阅读(758) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（10）Flink 写入数据到 ElasticSearch

摘要：前言前面 FLink 的文章中我们已经介绍了说 Flink 已经有很多自带的 Connector。其中包括了 Source 和 Sink 的，后面我也讲了下如何自定义自己的 Source 和 Sink。那么今天要做的事情是啥呢？就是介绍一下 Flink 自带的 ElasticSearch Co 阅读全文

posted @ 2020-09-07 18:01 大码王阅读(547) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（9）Flink 项目如何运行？

摘要：前言之前写了不少 Flink 文章了，也有不少 demo，但是文章写的时候都是在本地直接运行 Main 类的 main 方法，其实 Flink 是支持在 UI 上上传 Flink Job 的 jar 包，然后运行得。准备编译打包我们在整个项目（flink-learning）pom.xml 阅读全文

posted @ 2020-09-07 18:00 大码王阅读(433) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（8）介绍Flink中的Stream Windows

摘要：前言目前有许多数据分析的场景从批处理到流处理的演变，虽然可以将批处理作为流处理的特殊情况来处理，但是分析无穷集的流数据通常需要思维方式的转变并且具有其自己的术语（例如，“windowing（窗口化）”、“at-least-once（至少一次）”、“exactly-once（只有一次）” ）。对阅读全文

posted @ 2020-09-07 16:39 大码王阅读(294) 评论(0) 推荐(0) 编辑

公告