上一页 1 2 3 4 5 6 7 8 ··· 72 下一页
摘要: 1 需求描述 个人服务器的磁盘空间不足了,恍然发现主要是 docker 占用了太多空间。那么如何安全地清理Docker服务占用的磁盘空间呢? 2 解决方案 检查磁盘空间情况 检查磁盘空间,确认overlay2占用的空间 # df -h Filesystem Size Used Avail Use% 阅读全文
posted @ 2026-01-01 00:21 千千寰宇 阅读(1326) 评论(0) 推荐(0)
摘要: 0 引言 Presto (Trino) 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。 Presto 的核心目标就是提供【交互式查询】,也就是我们常说的 Ad-Hoc Query(即席查询),很多公司都使用它作为 OLAP 计算引擎。 但 阅读全文
posted @ 2025-12-24 01:18 千千寰宇 阅读(138) 评论(0) 推荐(0)
摘要: 0 序 这个有趣的数据结构,以前最早在Hadoop的mr和几年前用Python写自动文本摘要算法时用到过(基于此自己实现了滑动窗口)。 这次是在flink的一个业务场景中使用上了,总结一二。 1 概述:循环队列 循环队列 循环队列: 一种先进先出(FIFO)的数据结构——它通过将【顺序队列】的末尾连 阅读全文
posted @ 2025-12-13 23:56 千千寰宇 阅读(58) 评论(0) 推荐(0)
摘要: 1 概述:Flink 安装部署篇 1.0 前置知识 1.0.1 Flink 概述 Apache Flink 概述 - 博客园/千千寰宇 1.0.2 Flink Demo Job Flink Demo Job : WordCount - 博客园/千千寰宇 1.1 Windows下安装 Flink 1. 阅读全文
posted @ 2025-12-11 01:20 千千寰宇 阅读(144) 评论(0) 推荐(0)
摘要: 1 概述: Podman 当我们谈论容器时,我们首先想到的默认工具就是Docker。但自从 Docker 诞生以来,容器领域已经有了很多发展,特别是在容器安全方面。Podman 是解决安全问题的项目之一。 Podman(POD Manager)是一个开源的无守护进程(daemonless)容器引擎, 阅读全文
posted @ 2025-12-07 21:03 千千寰宇 阅读(203) 评论(0) 推荐(0)
摘要: 0 序 学习一款新的Python依赖包管理与环境管理工具: UV。 "最近几个月,我注意到一个现象:看到的新开源项目里,越来越多开始在README里写uv pip install而不是pip install。" 2025年,Python包管理工具已经由pip变成了uv? - Weixin/机器学习实 阅读全文
posted @ 2025-12-05 23:55 千千寰宇 阅读(449) 评论(0) 推荐(0)
摘要: 1 概述:一致性哈希算法 一致性哈希(Consistent Hashing)是一种特殊的哈希算法,其主要用于在分布式系统中实现【数据的负载均衡】和【高可用性】。 它解决了【传统哈希方法】在节点增减时导致【大量数据迁移】的问题。 一致性哈希的基本原理 1. 哈希环(Hash Ring) 将整个哈希空间 阅读全文
posted @ 2025-11-25 00:33 千千寰宇 阅读(76) 评论(0) 推荐(0)
摘要: 1 概述: OpenGemini 发展历程暨版本特性 OpenGemini 是由华为云发起并开源的一款高性能、高可用、云原生的分布式时序数据库(Time Series Database, TSDB)。 其目标是为物联网(IoT)、运维监控、金融等领域提供高效的时间序列数据存储与分析能力。 自 202 阅读全文
posted @ 2025-11-25 00:17 千千寰宇 阅读(19) 评论(0) 推荐(0)
摘要: 0 序言 续接[数据存储] 浅谈大数据领域的数据存储格式:ORC / Avro / Parquet / Arrow- 博客园/千千寰宇,展开回顾一下 Hive 的数据存储格式。 1 概述: Hive Hive支持多种存储格式,选择合适的存储格式对于提升查询性能和存储效率至关重要。 常见的Hive存储 阅读全文
posted @ 2025-11-24 01:17 千千寰宇 阅读(34) 评论(0) 推荐(0)
摘要: 0 序 数据存储格式,区别于压缩格式、归档格式,如: gzip、zstd、zip、rar、7z等。 如: orc / avro / parquet 等。 1 概述:大数据领域的数据存储格式 在当今大数据生态系统中,高效、可靠且可扩展的数据存储格式是支撑海量数据分析与处理的关键基础。 Apache O 阅读全文
posted @ 2025-11-24 01:16 千千寰宇 阅读(98) 评论(0) 推荐(0)
摘要: 1 概述 Volcano是 CNCF 下首个也是唯一的基于Kubernetes的容器批量计算平台,主要用于高性能计算场景。 Volcano 是一个开源的 Kubernetes 批处理系统,专为高性能计算任务设计。 它提供了一种高效的方式来管理和调度资源密集型作业。比如:大数据处理和机器学习任务。 它 阅读全文
posted @ 2025-11-20 01:04 千千寰宇 阅读(589) 评论(0) 推荐(0)
摘要: 0 序言 近期因某项目的部署诉求,需要基于 Stream Park,部署 Flink on k8s。在此学习总结一二。 1 概述:Apache Stream Park Apache Stream Park 在实时处理领域,Apache Spark™ 和 Apache Flink® 代表着巨大的进步, 阅读全文
posted @ 2025-11-20 00:01 千千寰宇 阅读(234) 评论(0) 推荐(0)
摘要: 0 序言 LSM-tree作为现代数据库 NewSQL 存储引擎的核心,以顺序写和异地更新大幅提升写入性能,解决了B-tree在写放大和磁盘碎片上的瓶颈。 本文意在解析LSM-tree的Memtable、SSTable与WAL机制,揭示读写流程和合并策略(Leveled与Tiered Compact 阅读全文
posted @ 2025-11-19 00:25 千千寰宇 阅读(367) 评论(1) 推荐(1)
摘要: 1 概述: NewSQL NewSQL的定义 NewSQL的定义 NewSQL 是对各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。 NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读-写)工作 阅读全文
posted @ 2025-11-18 01:18 千千寰宇 阅读(68) 评论(0) 推荐(0)
摘要: 0 序 笔者在项目中使用/运维 InfluxDB 和 OpenGemini 时序数据库已有些年头了,虽然对其数据库源码研究得还不算特别精深,但仍有必要沉淀一二,总结一二了。 此篇主要针对 influxdb v1。如无特殊说明,则默认基于 influxdb v1.7.5 进行源码、原理和架构的分析。 阅读全文
posted @ 2025-11-17 00:40 千千寰宇 阅读(279) 评论(0) 推荐(1)
上一页 1 2 3 4 5 6 7 8 ··· 72 下一页