摘要:
说明: Flink是一个有状态的流式计算引擎,所以会将中间计算结果(状态)进行保存,默认保存到TaskManager 的堆内存中,但是当task挂掉,那么这个task所对应的状态都会被清空,造成了数据丢失,无法保证结 果的正确性,哪怕想要得到正确结果,所有数据都要重新计算一遍,效率很低。想要保证At 阅读全文
摘要:
Redis-Sink使用Flink内嵌 RedisSink <dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.0</versi 阅读全文
摘要:
shuffle 场景:增大分区、提高并行度,解决数据倾斜 DataStream → DataStream 分区元素随机均匀分发到下游分区,网络开销比较大 val env = StreamExecutionEnvironment.getExecutionEnvironment val stream = 阅读全文
摘要:
ke01开启: nc -lk 8888 Map:遍历数据流中的每一个元素,产生一个新的元素 package com.text.transformation import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment i 阅读全文
摘要:
从HDFS上读取文件 //在算子转换的时候,会将数据转换成Flink内置的数据类型,所以需要将隐式转换导入进来,才能自动进行类型转换 import org.apache.flink.streaming.api.scala._ val env = StreamExecutionEnvironment. 阅读全文
摘要:
HADOOP 端口 说明 50070 HDFS WEB UI端口 8020 高可用的HDFS RPC端口 9000 非高可用的HDFS RPC端口 8088 yarn的WEB UI接口 8485 JournalNode的RPC端口 8019 ZKFC端口 19888 MapReduce 8032 y 阅读全文
摘要:
Flink API介绍 1.Stateful Stream Processing 最低级的抽象接口是状态化的数据流接口 2.DataStream/DataSet API 是 Flink 提供的核心 API ,DataSet 处理 有界的数据集,DataStream 处理有界或者无界的数据流。 3.T 阅读全文
摘要:
Spark生态圈 spark core 批计算 取代了MR spark streaming 流计算 取代了storm(没有自己的生态圈,所以不火) spark sql spark mlib 机器学习 问:spark core为什么会取代MR?spark计算速度为什么比MR快? 1. spark申请资 阅读全文
摘要:
MR与hive_sql替换 // MR:public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWrit 阅读全文
摘要:
创建表 create table student( s_id string comment '学生编号', s_name string comment '学生姓名', s_birth string comment '学生生日', s_sex string comment '学生性别') commen 阅读全文