摘要:
本篇来介绍一下通过Spark来读取和HDFS上的数据,主要包含四方面的内容:将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。 1、启动Hadoop 首先启动咱们的Hadoop,在hadoop的目录下执行下面的命令: rm -rf tm 阅读全文
摘要:
实体类: import java.io.Serializable; public class FlinkDao implements Serializable { private String id; private String startMoney; private String startTi 阅读全文
摘要:
redis中的数据:需要实现SourceFunction接口,指定泛型<>,也就是获取redis里的数据,处理完后的数据输入的数据类型 这里我们需要的是(我们需要返回kv对的,就要考虑HashMap)pom.xml <!-- https://mvnrepository.com/artifact/re 阅读全文
摘要:
1、依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.2</flink.version> <slf4j.version>1.7.7</slf4j. 阅读全文
摘要:
1,读取实现了,也是找的资料,核心就是实现了 HCatInputFormatHCatInputFormatBase 上面这两个类,底层也是 继承实现了 RichInputFormat: public abstract class HCatInputFormatBase<T> extends Rich 阅读全文
摘要:
在Flink文档中,提供connector读取源数据和把处理结果存储到外部系统中。但是没有提供数据库的connector,如果要读写数据库,官网给出了异步IO(Asynchronous I/O)专门用于访问外部数据,详细可看: https://ci.apache.org/projects/flink 阅读全文
摘要:
这里读HBase提供两种方式,一种是继承RichSourceFunction,重写父类方法,一种是实现OutputFormat接口,具体代码如下: 方式一:继承RichSourceFunction package com.my.flink.utils.streaming.hbase; import 阅读全文
摘要:
接一下以一个示例配置来介绍一下如何以Flink连接HDFS 1. 依赖HDFS pom.xml 添加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-hadoop-compatibility_2.11</art 阅读全文
摘要:
今天介绍用 Flink 读取Kafka生成的数据,并进行汇总的案例 第一步:环境准备,kafka,flink,zookeeper。我这边是用的CDH环境,kafka跟zookeeper 都安装完毕,并测试可以正常使用 第二步:用kafka创建一个生产者进行消息生产 ./kafka-console-p 阅读全文
摘要:
说明 读取kafka数据并且经过ETL后,通过JDBC存入clickhouse中 代码 定义POJO类: 12345678 public class Student { private int id; private String name; private String password; pri 阅读全文
摘要:
一、背景 每天上百亿的日志数据实时查询是个挑战,在架构设计上采用了Kafka + Flink + Clickhouse+Redash,实现海量数据的实时分析。计算层,我们开发了基于Flink计算引擎的实时数据平台,简化开发流程,数据通过配置化实现动态Schema生成,底层数据解析统一,无需重复造轮子 阅读全文
摘要:
因业务要求,我们需要从Kafka中读取数据,变换后最终Sink到业务的消息队列中,为保证数据的可靠性,我们同时对Sink的结果数据,进行保存。最终选择将流数据Sink到HDFS上,在Flink中,同时也提供了HDFS Connector。下面就介绍如何将流式数据写入HDFS,同时将数据load到Hi 阅读全文