01 2021 档案

摘要:总结《SparkStreaming实时流式大数据处理实战》 一、初始spark 1. 初始sparkstreaming 1.1 大数据处理模式 1. 一种是原生流处理(Native)的方式,即所有输入记录会一条接一条地被处理,storm 和 flink 2. 另一种是微批处理(Batch)的方式,将 阅读全文
posted @ 2021-01-29 20:12 彬在俊 阅读(1439) 评论(0) 推荐(0) 编辑
摘要:转自:https://blog.csdn.net/weixin_37766087/article/details/100940409 说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严 阅读全文
posted @ 2021-01-26 11:41 彬在俊 阅读(334) 评论(0) 推荐(0) 编辑
摘要:1. usage of api document as @since 1.8+ IDEA出现错误: Usage of API documented as @since 1.8+ less… This inspection finds all usages of methods that have @ 阅读全文
posted @ 2021-01-26 11:23 彬在俊 阅读(460) 评论(0) 推荐(0) 编辑
摘要:UDF几个相关概念: UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/min【进来多行出去一行】 UDTF: Table-generating o 阅读全文
posted @ 2021-01-26 11:17 彬在俊 阅读(383) 评论(0) 推荐(0) 编辑
摘要:转载于:https://my.oschina.net/u/4631230/blog/4533371 (a表和b表通过user_id关联) 1.1 a表数据 select * from wedw_dw.t_user; 1.2 b表数据 select * from wedw_dw.t_order; 1. 阅读全文
posted @ 2021-01-24 17:10 彬在俊 阅读(4398) 评论(0) 推荐(0) 编辑
摘要:一、ACL权限 查看当前/文件夹的权限 hsdf dfs -getfacl / 为root用户在/文件夹下添加rwx权限 hdfs dfs -setfacl -m user:root:rwx / 为root组在文件夹/下添加rwx权限 hdfs dfs -setfacl -m group:root: 阅读全文
posted @ 2021-01-24 16:34 彬在俊 阅读(232) 评论(0) 推荐(0) 编辑
摘要:转载于:https://blog.csdn.net/weixin_42670653/article/details/100042953 问题: 在docker容器内无法删除文件 dockerfile里 或者在容器内执行完rm -rf之后,文件全部变成??? ??? 原因: centos默认使用的是x 阅读全文
posted @ 2021-01-24 11:04 彬在俊 阅读(1424) 评论(0) 推荐(0) 编辑
摘要:@ RDD实现详解 RDD是Spark最基本也是最根本的数据抽象,本质将数据保存在内存中,并且高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。 1. 什么是RDD RDDDD弹性分布式内存数据集,只读,分区记录的集合,RDD只能基于在稳定物理存储中的数据集和其他已有的 阅读全文
posted @ 2021-01-21 15:20 彬在俊 阅读(596) 评论(0) 推荐(0) 编辑
摘要:@ Spark简介 1.1 spark 是什么? spark是大数据分析引擎,集批处理,实时流计算处理分布式数据集。 Spark实现了一种分布式的内存抽象,称为弹性分布式数据集(Resilient Distributed Dataset,RDD)。它支持基于工作集的应用,同时具有数据流模型的特点:自 阅读全文
posted @ 2021-01-19 11:35 彬在俊 阅读(166) 评论(0) 推荐(0) 编辑
摘要:@ 深入客户端 1. 分区分配策略 设置消费者与订阅主题之间的分区分配策略。 1.1 RangeAssignor分配策略 RangeAssignor 分配策略的原理是**按照消费者总数和分区总数进行整除运算来获得一个跨度,然后将分区按照跨度进行平均分配,以保证分区尽可能均匀地分配给所有的消费者。** 阅读全文
posted @ 2021-01-17 15:13 彬在俊 阅读(156) 评论(0) 推荐(0) 编辑
摘要:@ 深入服务端 1. 时间轮 Kafka中存在大量的延时操作,比如延时生产、延时拉取和延时删而是基于时间轮的概念自定义实现了一个用于延时功能的定时器除等。 为什么不用java自带的延时器? 因为时间复杂度不能满足Kafka的要求,在Netty,Zookeeper,Akka都有时间轮的存在。 时间轮介 阅读全文
posted @ 2021-01-17 12:08 彬在俊 阅读(277) 评论(0) 推荐(0) 编辑
摘要:@ 日志存储 1. 文件目录布局 Kafka中的消息是以主题为基本单位,各个主题在逻辑上相互独立。 一个分区对应一个日志(Log),为了防止Log过大,Kafka有引入日志分段(LogSegment),将Log切分成多个LogSegment,有利于消息的维护和清理。 向Log追加消息是顺序写入,只有 阅读全文
posted @ 2021-01-13 15:54 彬在俊 阅读(218) 评论(0) 推荐(0) 编辑
摘要:@ 主题与分区 1. 主题的管理 主题的管理包括创建主题,查看主题信息,修改主题,删除主题。 1.1 创建主题 创建主题语句 bin/kafka-topics.sh --zookeeper localhost:2181/kafka --create --topic test --partitions 阅读全文
posted @ 2021-01-13 13:36 彬在俊 阅读(208) 评论(0) 推荐(0) 编辑
摘要:@ 1. 消费者 消费者Consumer负责订阅kafka中的主题。并从主题中拉取消息。每个消费者都有一个对应的消费组。 两个消费组之间互不影响,每一个分区只能被一个消费组中的一个消费者所消费。 我们可以增加(或减少)消费者的个数来提高(或降低)整体的消费能力,但是过多增加消费者个数并不能一致提高消 阅读全文
posted @ 2021-01-13 13:34 彬在俊 阅读(246) 评论(0) 推荐(0) 编辑
摘要:@ 1. 基本概念 kafka系统架构如图: Kafka 架构分为以下几个部分 Producer :消息生产者,就是向 kafka broker 发消息的客户端。 Consumer :消息消费者,向 kafka broker 取消息的客户端。 Topic :可以理解为一个队列,一个 Topic 又分 阅读全文
posted @ 2021-01-13 13:32 彬在俊 阅读(459) 评论(0) 推荐(0) 编辑
摘要:目录 Hbase集群修复 Hbase调优 1. 操作系统级别调优 2. Hbase相关组件调优 3. HBase参数优化 4. Hbase业务调优 5. JVM调优 HBase故障原因 Hbase集群修复 HBase集群一致性主要包括两个方面 HBase Region一致性 集群中所有Region都 阅读全文
posted @ 2021-01-04 18:09 彬在俊 阅读(574) 评论(0) 推荐(0) 编辑
摘要:目录 1. Compaction实现 1.1 Compaction基本工作原理 1.1.1Compaction触发条件 1.1.2待合并HFile集合选择策略 2. 负载均衡实现 3. Region合并 4. Region的分裂 4.1 Region分裂触发条件 4.2 Region分裂准备工作 寻 阅读全文
posted @ 2021-01-02 16:29 彬在俊 阅读(184) 评论(0) 推荐(0) 编辑
摘要:目录 1. HBase写入流程 1.1 写入流程的三个阶段 1.1.1 客户端请求阶段 1.1.2 Region写入阶段 1.1.3 MemStore Flush阶段 1.1.3.1 Flush触发条件 1.1.3.2 flush执行流程 1.1.3.3 生成HFile 1.1.3.4 MemSto 阅读全文
posted @ 2021-01-01 17:06 彬在俊 阅读(195) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示