08 2022 档案
摘要:一、概述 作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使用,只是大部分时候我们因熟悉Docker,在部署集群时采用了默认的dockershim。在V1.24起的版本的kubelet就彻底移除了dockershim,改为默认使用Cont
阅读全文
摘要:一、前言 Harbor的部署之前使用的存储是NFS,虽然可以使用rsync+inotify做数据同步做解决单点问题,但是NFS效率/性能有限,没有对象存储那么强大,所以一般使用对象存储居多,这里选用MinIO 对象存储软件,当然也可以使用Ceph或者其它对象存储。都部署在k8s 集群上,k8s 基础
阅读全文
摘要:一、概述 Kubernetes中的健康检查主要使用 就绪性探针(readinessProbes)和 存活性探针(livenessProbes) 来实现,service即为负载均衡,k8s保证 service 后面的 pod 都可用,是k8s中自愈能力的主要手段,主要基于这两种探测机制,可以实现如下需
阅读全文
摘要:一、概述 Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。 官方文档:https://docs.docker.com/engine/reference/builder/ Dockerfile 示例:https://github.com/dockerf
阅读全文
摘要:一、概述 存储卷,简称卷,卷是pod的一部分,卷在pod创建时创建,删除pod时卷也会被销毁,卷可以为pod中的所有容器使用,前提是所有容器都将卷挂载到容器里,卷可以挂载到容器的文件系统中的任意位置。一个pod可以定义多个不同类型的卷,一个容器也可以使用不同类型的多个卷。pod需要设置卷来源(spe
阅读全文
摘要:一、rsync概述 rsync(remote sync)远程同步,rsync是linux系统下的数据镜像备份工具。使用快速增量备份工具Remote Sync可以远程同步,支持本地复制,或者与其他SSH、rsync主机同步。已支持跨平台,可以在Windows与Linux间进行数据同步。 rsync监听
阅读全文
摘要:一、前言 其实之前已经部署过了1.22.1版本了,基础概念和细节的东西这里就不再重复了,小伙伴可以参考我之前的文章哦: Kubernetes(k8s)基础概念介绍 Kubernetes(k8s)安装以及搭建k8s-Dashboard详解 Kubernetes(k8s) YAML文件详解 Kubern
阅读全文
摘要:一、背景 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。每个块的大小可以通过配置参数(dfs.blocksize)来规定,默认的大小128
阅读全文
摘要:一、概述 hdfs 需要存写大量文件,有时磁盘会成为整个集群的性能瓶颈,所以需要优化 hdfs 存取速度,将数据目录配置多磁盘,既可以提高并发存取的速度,还可以解决一块磁盘空间不够的问题。 Hadoop 环境部署可以参考我之前的文章:大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原
阅读全文
摘要:一、前言 在 Hadoop 2.0.0 之前,一个集群只有一个Namenode,这将面临单点故障问题。如果 Namenode 机器挂掉了,整个集群就用不了了。只有重启 Namenode ,才能恢复集群。另外正常计划维护集群的时候,还必须先停用整个集群,这样没办法达到 7 * 24小时可用状态。Had
阅读全文
摘要:一、概述 Livy是一个提供Rest接口和spark集群交互的服务。它可以提交Spark Job或者Spark一段代码,同步或者异步的返回结果;也提供Sparkcontext的管理,通过Restful接口或RPC客户端库。Livy也简化了与Spark与应用服务的交互,这允许通过web/mobile与
阅读全文
摘要:一、前言 HBase的基本概念和环境部署,可以参考我之前的文章:列式存储的分布式数据库——HBase(环境部署) 二、命令行操作(hbase shell) 1)连接HBase 官方文档:https://hbase.apache.org/book.html#shell # 启动hbase服务,已启动可
阅读全文
摘要:一、概述 HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制
阅读全文
摘要:一、前言 MinIO的基础概念和环境部署可以参考我之前的文章:高性能分布式对象存储——MinIO(环境部署) 二、客户端操作MinIO Client(mc) 官方文档:https://docs.min.io/docs/minio-admin-complete-guide.html MinIO Cli
阅读全文
摘要:一、概述 MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构。 官方文档:https://docs.min.io/ 中文文档:http
阅读全文
摘要:一、前言 ClickHouse的基础概念和环境部署,可以参考我之前的文章:列式数据库管理系统——ClickHouse(version:22.7.1 环境部署) 二、SQL语法讲解与实战操作 ClickHouse有2类解析器:完整SQL解析器(递归式解析器),以及数据格式解析器(快速流式解析器) 除了
阅读全文
摘要:一、概述 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse不单单是一个数据库, 它是一个数据库管理系统。 官方文档:https://clickhouse.com/docs/zh GitHub地址:https://github.com/Click
阅读全文