陕西小楞娃 - 博客园

2021年6月19日

摘要：说明： Flink是一个有状态的流式计算引擎，所以会将中间计算结果(状态)进行保存，默认保存到TaskManager 的堆内存中，但是当task挂掉，那么这个task所对应的状态都会被清空，造成了数据丢失，无法保证结果的正确性，哪怕想要得到正确结果，所有数据都要重新计算一遍，效率很低。想要保证At 阅读全文

posted @ 2021-06-19 14:26 陕西小楞娃阅读(163) 评论(0) 推荐(0) 编辑

2021年6月17日

Flink-Sink(四)

摘要： Redis-Sink使用Flink内嵌 RedisSink <dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.0</versi 阅读全文

posted @ 2021-06-17 18:00 陕西小楞娃阅读(66) 评论(0) 推荐(0) 编辑

2021年6月14日

Flink-Dataflows分区策略(四)

摘要： shuffle 场景：增大分区、提高并行度，解决数据倾斜 DataStream → DataStream 分区元素随机均匀分发到下游分区，网络开销比较大 val env = StreamExecutionEnvironment.getExecutionEnvironment val stream = 阅读全文

posted @ 2021-06-14 11:30 陕西小楞娃阅读(262) 评论(0) 推荐(0) 编辑

2021年6月11日

Flink-transformation(四)

摘要： ke01开启： nc -lk 8888 Map：遍历数据流中的每一个元素，产生一个新的元素 package com.text.transformation import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment i 阅读全文

posted @ 2021-06-11 00:32 陕西小楞娃阅读(109) 评论(0) 推荐(0) 编辑

Flink-读取文件的方式(三)

摘要：从HDFS上读取文件 //在算子转换的时候，会将数据转换成Flink内置的数据类型，所以需要将隐式转换导入进来，才能自动进行类型转换 import org.apache.flink.streaming.api.scala._ val env = StreamExecutionEnvironment. 阅读全文

posted @ 2021-06-11 00:01 陕西小楞娃阅读(2644) 评论(0) 推荐(0) 编辑

2021年6月10日

大数据常用默认端口

摘要： HADOOP 端口说明 50070 HDFS WEB UI端口 8020 高可用的HDFS RPC端口 9000 非高可用的HDFS RPC端口 8088 yarn的WEB UI接口 8485 JournalNode的RPC端口 8019 ZKFC端口 19888 MapReduce 8032 y 阅读全文

posted @ 2021-06-10 00:10 陕西小楞娃阅读(298) 评论(0) 推荐(0) 编辑

2021年6月9日

Flink-API(二)

摘要： Flink API介绍 1.Stateful Stream Processing 最低级的抽象接口是状态化的数据流接口 2.DataStream/DataSet API 是 Flink 提供的核心 API ，DataSet 处理有界的数据集，DataStream 处理有界或者无界的数据流。 3.T 阅读全文

posted @ 2021-06-09 00:02 陕西小楞娃阅读(184) 评论(0) 推荐(0) 编辑

2021年6月7日

Flink初识与搭建(一)

摘要： Spark生态圈 spark core 批计算取代了MR spark streaming 流计算取代了storm(没有自己的生态圈，所以不火) spark sql spark mlib 机器学习问：spark core为什么会取代MR？spark计算速度为什么比MR快？ 1. spark申请资阅读全文

posted @ 2021-06-07 22:21 陕西小楞娃阅读(217) 评论(0) 推荐(0) 编辑

2021年5月23日

Hive总结

摘要： MR与hive_sql替换 // MR:public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWrit 阅读全文

posted @ 2021-05-23 19:04 陕西小楞娃阅读(276) 评论(0) 推荐(0) 编辑

2021年5月18日

Hive_sql50道练习题

摘要：创建表 create table student( s_id string comment '学生编号', s_name string comment '学生姓名', s_birth string comment '学生生日', s_sex string comment '学生性别') commen 阅读全文

posted @ 2021-05-18 00:27 陕西小楞娃阅读(470) 评论(0) 推荐(0) 编辑