08 2022 档案

摘要:一、概述 作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使用,只是大部分时候我们因熟悉Docker,在部署集群时采用了默认的dockershim。在V1.24起的版本的kubelet就彻底移除了dockershim,改为默认使用Cont 阅读全文
posted @ 2022-08-28 21:23 大数据老司机 阅读(8582) 评论(0) 推荐(4) 编辑
摘要:一、前言 Harbor的部署之前使用的存储是NFS,虽然可以使用rsync+inotify做数据同步做解决单点问题,但是NFS效率/性能有限,没有对象存储那么强大,所以一般使用对象存储居多,这里选用MinIO 对象存储软件,当然也可以使用Ceph或者其它对象存储。都部署在k8s 集群上,k8s 基础 阅读全文
posted @ 2022-08-28 13:18 大数据老司机 阅读(1320) 评论(0) 推荐(0) 编辑
摘要:一、概述 Kubernetes中的健康检查主要使用 就绪性探针(readinessProbes)和 存活性探针(livenessProbes) 来实现,service即为负载均衡,k8s保证 service 后面的 pod 都可用,是k8s中自愈能力的主要手段,主要基于这两种探测机制,可以实现如下需 阅读全文
posted @ 2022-08-27 16:40 大数据老司机 阅读(3981) 评论(0) 推荐(2) 编辑
摘要:一、概述 Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。 官方文档:https://docs.docker.com/engine/reference/builder/ Dockerfile 示例:https://github.com/dockerf 阅读全文
posted @ 2022-08-26 23:08 大数据老司机 阅读(561) 评论(0) 推荐(2) 编辑
摘要:一、概述 存储卷,简称卷,卷是pod的一部分,卷在pod创建时创建,删除pod时卷也会被销毁,卷可以为pod中的所有容器使用,前提是所有容器都将卷挂载到容器里,卷可以挂载到容器的文件系统中的任意位置。一个pod可以定义多个不同类型的卷,一个容器也可以使用不同类型的多个卷。pod需要设置卷来源(spe 阅读全文
posted @ 2022-08-24 22:39 大数据老司机 阅读(2624) 评论(0) 推荐(0) 编辑
摘要:一、rsync概述 rsync(remote sync)远程同步,rsync是linux系统下的数据镜像备份工具。使用快速增量备份工具Remote Sync可以远程同步,支持本地复制,或者与其他SSH、rsync主机同步。已支持跨平台,可以在Windows与Linux间进行数据同步。 rsync监听 阅读全文
posted @ 2022-08-23 22:13 大数据老司机 阅读(874) 评论(0) 推荐(0) 编辑
摘要:一、前言 其实之前已经部署过了1.22.1版本了,基础概念和细节的东西这里就不再重复了,小伙伴可以参考我之前的文章哦: Kubernetes(k8s)基础概念介绍 Kubernetes(k8s)安装以及搭建k8s-Dashboard详解 Kubernetes(k8s) YAML文件详解 Kubern 阅读全文
posted @ 2022-08-22 23:19 大数据老司机 阅读(3725) 评论(0) 推荐(2) 编辑
摘要:一、背景 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。每个块的大小可以通过配置参数(dfs.blocksize)来规定,默认的大小128 阅读全文
posted @ 2022-08-21 18:46 大数据老司机 阅读(3897) 评论(0) 推荐(0) 编辑
摘要:一、概述 hdfs 需要存写大量文件,有时磁盘会成为整个集群的性能瓶颈,所以需要优化 hdfs 存取速度,将数据目录配置多磁盘,既可以提高并发存取的速度,还可以解决一块磁盘空间不够的问题。 Hadoop 环境部署可以参考我之前的文章:大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原 阅读全文
posted @ 2022-08-21 08:42 大数据老司机 阅读(2079) 评论(0) 推荐(0) 编辑
摘要:一、前言 在 Hadoop 2.0.0 之前,一个集群只有一个Namenode,这将面临单点故障问题。如果 Namenode 机器挂掉了,整个集群就用不了了。只有重启 Namenode ,才能恢复集群。另外正常计划维护集群的时候,还必须先停用整个集群,这样没办法达到 7 * 24小时可用状态。Had 阅读全文
posted @ 2022-08-20 11:37 大数据老司机 阅读(3479) 评论(1) 推荐(1) 编辑
摘要:一、概述 Livy是一个提供Rest接口和spark集群交互的服务。它可以提交Spark Job或者Spark一段代码,同步或者异步的返回结果;也提供Sparkcontext的管理,通过Restful接口或RPC客户端库。Livy也简化了与Spark与应用服务的交互,这允许通过web/mobile与 阅读全文
posted @ 2022-08-14 19:22 大数据老司机 阅读(2019) 评论(0) 推荐(1) 编辑
摘要:一、前言 HBase的基本概念和环境部署,可以参考我之前的文章:列式存储的分布式数据库——HBase(环境部署) 二、命令行操作(hbase shell) 1)连接HBase 官方文档:https://hbase.apache.org/book.html#shell # 启动hbase服务,已启动可 阅读全文
posted @ 2022-08-13 18:27 大数据老司机 阅读(841) 评论(0) 推荐(0) 编辑
摘要:一、概述 HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制 阅读全文
posted @ 2022-08-12 23:38 大数据老司机 阅读(1411) 评论(0) 推荐(0) 编辑
摘要:一、前言 MinIO的基础概念和环境部署可以参考我之前的文章:高性能分布式对象存储——MinIO(环境部署) 二、客户端操作MinIO Client(mc) 官方文档:https://docs.min.io/docs/minio-admin-complete-guide.html MinIO Cli 阅读全文
posted @ 2022-08-08 00:02 大数据老司机 阅读(12365) 评论(2) 推荐(3) 编辑
摘要:一、概述 MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构。 官方文档:https://docs.min.io/ 中文文档:http 阅读全文
posted @ 2022-08-07 12:41 大数据老司机 阅读(10971) 评论(0) 推荐(2) 编辑
摘要:一、前言 ClickHouse的基础概念和环境部署,可以参考我之前的文章:列式数据库管理系统——ClickHouse(version:22.7.1 环境部署) 二、SQL语法讲解与实战操作 ClickHouse有2类解析器:完整SQL解析器(递归式解析器),以及数据格式解析器(快速流式解析器) 除了 阅读全文
posted @ 2022-08-02 22:19 大数据老司机 阅读(872) 评论(0) 推荐(0) 编辑
摘要:一、概述 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse不单单是一个数据库, 它是一个数据库管理系统。 官方文档:https://clickhouse.com/docs/zh GitHub地址:https://github.com/Click 阅读全文
posted @ 2022-08-01 22:06 大数据老司机 阅读(739) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示