随笔分类 -  01.bigdata

大数据环境搭建、配置调优、围绕平台开发等.
摘要:StarRocks 官方只提供了单节点运行的镜像,如果是构建可以分布式运行的 StarRocks 的容器镜像,那么基于基础镜像可以有两种选择,分别是:starrocks/artifacts-ubuntu 和 starrocks/allin1-ubuntu,这两个都是基于 Ubuntu 22.04 的 阅读全文
posted @ 2024-07-07 17:51 小得盈满 阅读(237) 评论(0) 推荐(0) 编辑
摘要:Kafka 线上性能调优是一项综合工程,不仅仅是 Kafka 本身,还应该从硬件(存储、网络、CPU)以及操作系统方面来整体考量,首先我们要有一套生产部署方案,基于这套方案再进行调优,这样就有了可靠的底层保证,才能保证 Kafka 集群整体的稳定性。 1. 线上部署方案 1.1 操作系统 我们知道 阅读全文
posted @ 2024-04-18 21:58 小得盈满 阅读(951) 评论(2) 推荐(0) 编辑
摘要:当前按照官网上的提供的安装包方式安装,版本是 3.2.2,部署模式为存算一体,安装的操作系统是 Ubuntu 22.04,JDK 版本为 OpenJDK 11,这里选择 3 个节点进行安装,节点的 hosts 定义如下: 10.0.1.25 ec25 10.0.1.26 ec26 10.0.1.27 阅读全文
posted @ 2024-04-15 22:05 小得盈满 阅读(783) 评论(0) 推荐(0) 编辑
摘要:我们在使用 Kafka 生产和消费消息的时候,肯定是希望能够将数据均匀地分配到所有服务器上。比如在日志收集场景,数据量是非常巨大的,例如大批量的集群每分钟产生的日志都能以 GB 计,所以如何将这么大的数据量均匀地分配到 Kafka 的各个 Broker 上,就是一个非常重要的问题。 除了应对吞吐量的 阅读全文
posted @ 2024-04-15 21:42 小得盈满 阅读(683) 评论(0) 推荐(0) 编辑
摘要:本次实现基于 Flink 1.18 版本,具体的对象之间的关系可以先参考官网的图: 先拿官网上的 Socket 示例来说一下实现过程: 首先编写 SocketDynamicTableFactory 实现 DynamicTableSourceFactory 接口。 在 SocketDynamicTab 阅读全文
posted @ 2024-03-19 21:41 小得盈满 阅读(324) 评论(0) 推荐(0) 编辑
摘要:Redis 作为内存数据库,其性能表现非常出色,单机 OPS 很容易达到 10万以上,这主要得益于其高效的内存数据结构、单线程无锁设计、IO 多路复用等技术实现。但是在线上生产环境的使用中,我们仍然会发现在使用 Redis 的时候其性能和预期是不符的,例如出现了明显的延迟等,如果我们能从 Redis 阅读全文
posted @ 2024-01-02 21:59 小得盈满 阅读(363) 评论(0) 推荐(0) 编辑
摘要:Kafka 创建时未指定多个副本或者副本数量过少,都可以在后期手动添加,另外如果副本过多也可以减少,当前调整基于 Kafka 的版本是 2.5.1,但是估计 2.1 ~ 2.5 应该都是兼容的。 下面先来操作一下 Topic 副本减少的过程,首先查看 Kafka Topic 的详情: # 新版本的 阅读全文
posted @ 2023-09-26 20:24 小得盈满 阅读(1196) 评论(0) 推荐(0) 编辑
摘要:Filebeat 是比较轻量的日志采集工具,对于一些简单的采集任务可以直接使用 Filebeat 采集,同时也支持很多的方式输出,可以输出至 Kafka、Elasticsearch、Redis 等,下面我们来简单配置下。 首先下载好安装包,例如:filebeat-8.6.2-linux-x86_64 阅读全文
posted @ 2023-03-02 15:17 小得盈满 阅读(702) 评论(0) 推荐(0) 编辑
摘要:Redis是一种内存数据库,数据都存储在内存中,因此可以快速地直接基于内存中的数据结构进行高性能的操作,但是所有数据都在内存中,一旦服务器宕机,内存中的数据就会全部丢失,数据将无法恢复,因此Redis也有自己的持久化机制,但是要注意这个持久化和普通数据库的持久化不同,持久化文件必须全部读取到内存才可 阅读全文
posted @ 2022-07-22 17:03 小得盈满 阅读(341) 评论(0) 推荐(0) 编辑
摘要:Redis是一种内存数据库,所以可以很方便的直接基于内存中的数据结构,对外提供众多的接口,而这些接口实际上就是对不同的数据结构进行操作的算法,首先redis本身是一种key-value的数据库,对于value常见的类型有: 字符串(string)、散列(hash)、列表(list)、集合(set)、 阅读全文
posted @ 2022-03-24 22:28 小得盈满 阅读(533) 评论(0) 推荐(1) 编辑
摘要:之前介绍过Spark 1.6版本的部署,现在最新版本的spark为3.0.1并且已经完全兼容hadoop 3.x,同样仍然支持RDD与DataFrame两套API,这篇文章就主要介绍一下基于Hadoop 3.x的Spark 3.0部署,首先还是官网下载安装包,下载地址为:http://spark.a 阅读全文
posted @ 2020-11-02 16:31 小得盈满 阅读(2639) 评论(0) 推荐(0) 编辑
摘要:前面的一篇文章写到了hadoop hdfs 3.2集群的部署,其中是部署的单个namenode的hdfs集群,一旦其中namenode出现故障会导致整个hdfs存储不可用,如果是要求比较高的集群,有必要配置namenode故障转移来保证集群服务的可用性,hdfs提供两种机制实现的高可用: 1. 使用 阅读全文
posted @ 2020-10-20 14:24 小得盈满 阅读(1062) 评论(0) 推荐(0) 编辑
摘要:Ceph是一个分布式的存储系统,可以在统一的系统中提供唯一的对象、块和文件存储,Ceph的大致组件如下: 1. Ceph监视器(ceph-mon):用来维护集群状态的映射,包括监视器映射,管理器映射,OSD映射,MDS映射和CRUSH映射,这些映射是ceph守护程序相互协调所需的关键状态,另外还负责 阅读全文
posted @ 2020-08-25 15:29 小得盈满 阅读(11037) 评论(8) 推荐(2) 编辑
摘要:之前写过HDFS 2.6的部署,最近项目中尝试使用最新的HDFS 3.2.1做离线存储,部署方式略有不同,所以这里再简单写一下,这里只涉及到存储因此不再配置yarn,只配置HDFS最基本的服务NameNode、DataNode、以及SecondaryNameNode,我这里用到的包是hadoop-3 阅读全文
posted @ 2020-06-08 15:04 小得盈满 阅读(993) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch目前最新版是7.7.0,其中部署的细节和之前的6.x有很多的不同,所以这里单独拉出来写一下,希望对用7.x的童鞋有一些帮助,然后部署完ES后配套的kibana也是7.7.0,这个就简单了放到最后说,下面先进入ES 7.7.0的部署. 首先是下载es的安装包,官网下载即可,我 阅读全文
posted @ 2020-06-03 08:51 小得盈满 阅读(5173) 评论(0) 推荐(0) 编辑
摘要:上篇文章简单叙述了Flink standalone集群的基础部署,在生产环境中假如只有1个jobmanager的话,那么这个节点一旦挂掉,所有运行的task都会中断,带来的影响比较大,因此在生产环境至少要保证jobmanager的高可用,至少2个节点,也可以将jobmanager和taskmanag 阅读全文
posted @ 2019-12-24 17:04 小得盈满 阅读(2287) 评论(2) 推荐(1) 编辑
摘要:Flink Standalone模式部署集群是最简单的一种部署方式,不依赖于其他的组件,另外还支持YARN/Mesos/Docker等模式下的部署,这里使用的flink版本为最新的稳定版1.9.1版本,对应的Scala版本是2.11,二进制包为:flink-1.9.1-bin-scala_2.11. 阅读全文
posted @ 2019-12-24 15:51 小得盈满 阅读(8408) 评论(3) 推荐(1) 编辑
摘要:RabbitMQ是基于erlang开发的消息服务,官网为:https://www.rabbitmq.com,RabbitMQ要依赖erlang运行,所以要先安装erlang环境,rabbitmq可以用rpm或通用二进制包安装,这里使用二进制包的方式安装,版本为3.8.1,对应的erlang版本为22 阅读全文
posted @ 2019-11-08 14:03 小得盈满 阅读(1102) 评论(0) 推荐(0) 编辑
摘要:之前说过python confluent kafka客户端做kerberos认证的过程,如果使用kafka python客户端的话同样也可以进行kerberos的认证,具体的认证机制这里不再描述,主要叙述配置认证的过程 需要的模块有下面这些: kafka-python:https://pypi.or 阅读全文
posted @ 2019-10-15 09:36 小得盈满 阅读(6173) 评论(0) 推荐(1) 编辑
摘要:kafka的认证方式一般有如下3种: 1. SASL/GSSAPI 从版本0.9.0.0开始支持 2. SASL/PLAIN 从版本0.10.0.0开始支持 3. SASL/SCRAM-SHA-256 以及 SASL/SCRAM-SHA-512 从版本0.10.2.0开始支持 其中第一种SASL/G 阅读全文
posted @ 2019-10-11 17:57 小得盈满 阅读(3517) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示