千千寰宇

2026年1月1日

[Docker] Docker中`overlay2`磁盘占用爆满的清理方案

摘要： 1 需求描述个人服务器的磁盘空间不足了，恍然发现主要是 docker 占用了太多空间。那么如何安全地清理Docker服务占用的磁盘空间呢？ 2 解决方案检查磁盘空间情况检查磁盘空间，确认overlay2占用的空间 # df -h Filesystem Size Used Avail Use% 阅读全文

posted @ 2026-01-01 00:21 千千寰宇阅读(1353) 评论(0) 推荐(0)

2025年12月24日

[Presto] Trino ：开源的分布式SQL查询引擎

摘要： 0 引言 Presto (Trino) 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。 Presto 的核心目标就是提供【交互式查询】，也就是我们常说的 Ad-Hoc Query(即席查询)，很多公司都使用它作为 OLAP 计算引擎。但阅读全文

posted @ 2025-12-24 01:18 千千寰宇阅读(138) 评论(0) 推荐(0)

2025年12月13日

[数据结构/Java] 数据结构之循环队列

摘要： 0 序这个有趣的数据结构，以前最早在Hadoop的mr和几年前用Python写自动文本摘要算法时用到过(基于此自己实现了滑动窗口)。这次是在flink的一个业务场景中使用上了，总结一二。 1 概述：循环队列循环队列循环队列: 一种先进先出（FIFO）的数据结构——它通过将【顺序队列】的末尾连阅读全文

posted @ 2025-12-13 23:56 千千寰宇阅读(58) 评论(0) 推荐(0)

2025年12月11日

[Flink] Flink 安装部署篇

摘要： 1 概述：Flink 安装部署篇 1.0 前置知识 1.0.1 Flink 概述 Apache Flink 概述 - 博客园/千千寰宇 1.0.2 Flink Demo Job Flink Demo Job : WordCount - 博客园/千千寰宇 1.1 Windows下安装 Flink 1. 阅读全文

posted @ 2025-12-11 01:20 千千寰宇阅读(150) 评论(0) 推荐(0)

2025年12月7日

[容器] Podman : 一款新型的容器引擎与容器管理工具

摘要： 1 概述: Podman 当我们谈论容器时，我们首先想到的默认工具就是Docker。但自从 Docker 诞生以来，容器领域已经有了很多发展，特别是在容器安全方面。Podman 是解决安全问题的项目之一。 Podman（POD Manager）是一个开源的无守护进程（daemonless）容器引擎，阅读全文

posted @ 2025-12-07 21:03 千千寰宇阅读(205) 评论(0) 推荐(0)

2025年12月5日

[Python/依赖管理] UV : Python 包与环境管理工具

摘要： 0 序学习一款新的Python依赖包管理与环境管理工具: UV。 "最近几个月，我注意到一个现象：看到的新开源项目里，越来越多开始在README里写uv pip install而不是pip install。" 2025年，Python包管理工具已经由pip变成了uv？ - Weixin/机器学习实阅读全文

posted @ 2025-12-05 23:55 千千寰宇阅读(451) 评论(0) 推荐(0)

2025年11月25日

[数据存储/数据库/分布式系统] 一致性哈希算法

摘要： 1 概述：一致性哈希算法一致性哈希（Consistent Hashing）是一种特殊的哈希算法，其主要用于在分布式系统中实现【数据的负载均衡】和【高可用性】。它解决了【传统哈希方法】在节点增减时导致【大量数据迁移】的问题。一致性哈希的基本原理 1. 哈希环（Hash Ring）将整个哈希空间阅读全文

posted @ 2025-11-25 00:33 千千寰宇阅读(76) 评论(0) 推荐(0)

[TSDB] OpenGemini 版本特性发展沿革

摘要： 1 概述： OpenGemini 发展历程暨版本特性 OpenGemini 是由华为云发起并开源的一款高性能、高可用、云原生的分布式时序数据库（Time Series Database, TSDB）。其目标是为物联网（IoT）、运维监控、金融等领域提供高效的时间序列数据存储与分析能力。自 202 阅读全文

posted @ 2025-11-25 00:17 千千寰宇阅读(19) 评论(0) 推荐(0)

2025年11月24日

[数据存储] 浅析 Hive 数据存储格式

摘要： 0 序言续接[数据存储] 浅谈大数据领域的数据存储格式：ORC / Avro / Parquet / Arrow- 博客园/千千寰宇，展开回顾一下 Hive 的数据存储格式。 1 概述： Hive Hive支持多种存储格式，选择合适的存储格式对于提升查询性能和存储效率至关重要。常见的Hive存储阅读全文

posted @ 2025-11-24 01:17 千千寰宇阅读(35) 评论(0) 推荐(0)

[数据存储] 浅谈大数据领域的数据存储格式：ORC / Avro / Parquet

摘要： 0 序数据存储格式，区别于压缩格式、归档格式，如: gzip、zstd、zip、rar、7z等。如： orc / avro / parquet 等。 1 概述：大数据领域的数据存储格式在当今大数据生态系统中，高效、可靠且可扩展的数据存储格式是支撑海量数据分析与处理的关键基础。 Apache O 阅读全文

posted @ 2025-11-24 01:16 千千寰宇阅读(101) 评论(0) 推荐(0)

2025年11月20日

[K8s/资源调度] Volcano : 基于Kubernetes的【批量】容器【资源调度】平台

摘要： 1 概述 Volcano是 CNCF 下首个也是唯一的基于Kubernetes的容器批量计算平台，主要用于高性能计算场景。 Volcano 是一个开源的 Kubernetes 批处理系统，专为高性能计算任务设计。它提供了一种高效的方式来管理和调度资源密集型作业。比如：大数据处理和机器学习任务。它阅读全文

posted @ 2025-11-20 01:04 千千寰宇阅读(597) 评论(0) 推荐(0)

[Flink/Spark] Apache Stream Park : 一站式的流处理计算开发运管平台

摘要： 0 序言近期因某项目的部署诉求，需要基于 Stream Park，部署 Flink on k8s。在此学习总结一二。 1 概述：Apache Stream Park Apache Stream Park 在实时处理领域，Apache Spark™ 和 Apache Flink® 代表着巨大的进步，阅读全文

posted @ 2025-11-20 00:01 千千寰宇阅读(244) 评论(0) 推荐(0)

2025年11月19日

[数据库/数据结构] LSM-Tree ：结构化的日志合并树——NewSQL数据库的基石

摘要： 0 序言 LSM-tree作为现代数据库 NewSQL 存储引擎的核心，以顺序写和异地更新大幅提升写入性能，解决了B-tree在写放大和磁盘碎片上的瓶颈。本文意在解析LSM-tree的Memtable、SSTable与WAL机制，揭示读写流程和合并策略（Leveled与Tiered Compact 阅读全文

posted @ 2025-11-19 00:25 千千寰宇阅读(381) 评论(1) 推荐(1)

2025年11月18日

[数据库] NewSQL: 新一代数据库系统(第3代)

摘要： 1 概述: NewSQL NewSQL的定义 NewSQL的定义 NewSQL 是对各种新的可扩展/高性能数据库的简称，这类数据库不仅具有NoSQL对海量数据的存储管理能力，还保持了传统数据库支持ACID和SQL等特性。 NewSQL是指这样一类新式的关系型数据库管理系统，针对OLTP（读-写）工作阅读全文

posted @ 2025-11-18 01:18 千千寰宇阅读(69) 评论(0) 推荐(0)

2025年11月17日

[TSDB] InfluxDB 概述：主要特点、架构、核心原理

摘要： 0 序笔者在项目中使用/运维 InfluxDB 和 OpenGemini 时序数据库已有些年头了，虽然对其数据库源码研究得还不算特别精深，但仍有必要沉淀一二，总结一二了。此篇主要针对 influxdb v1。如无特殊说明，则默认基于 influxdb v1.7.5 进行源码、原理和架构的分析。阅读全文

posted @ 2025-11-17 00:40 千千寰宇阅读(282) 评论(0) 推荐(1)

大数据与Java软件开发从业者，数智化转型实践者。【好物推荐】

公告