12 2023 档案

摘要:实现Hadoop高可用性部署 Hadoop High Availability(HA)是一种设计模式,用于确保在Hadoop分布式文件系统(HDFS)和资源管理器(ResourceManager)等关键组件中发生故障时,系统能够继续提供服务。HA的目标是减小单点故障对系统可用性的影响,使Hadoop 阅读全文
posted @ 2023-12-31 17:14 sober_zero 阅读(216) 评论(0) 推荐(0)
摘要:Could not start ZK with 3 ZK servers in local mode deployment. Aborting as clients (e.g. shell) will not be able to find this ZK quorum. 控制台报错: 这个错误表明 阅读全文
posted @ 2023-12-29 15:13 sober_zero 阅读(386) 评论(1) 推荐(1)
摘要:控制台报错: [root@bigdata1 sqoop-1.4.2.bin__hadoop-2.0.0-alpha]# ./bin/sqoop list-databases --connect jdbc:mysql://192.168.45.10:3306 --username root --pas 阅读全文
posted @ 2023-12-27 19:53 sober_zero 阅读(392) 评论(0) 推荐(0)
摘要:引言 Apache Hive 是一款建立在 Hadoop 生态系统之上的数据仓库工具,它提供了一种 SQL 类似的查询语言(HiveQL)来查询和分析存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据。Hive 的设计目标是让用户可以在大规模数据集上执行复杂的查询,而无需深入了解 Map 阅读全文
posted @ 2023-12-27 15:59 sober_zero 阅读(180) 评论(0) 推荐(0)
摘要:引言 Apache Flink 是一款用于大规模数据处理和分析的分布式流处理框架,它提供了高性能、容错性和灵活性,广泛应用于实时数据处理和批处理场景。Flink 的核心特性包括事件驱动、状态管理、窗口操作等,使其成为处理实时和离线数据的理想选择。 本文档将引导您在 YARN(Yet Another 阅读全文
posted @ 2023-12-24 17:22 sober_zero 阅读(1075) 评论(0) 推荐(0)
摘要:HBase apache HBase™ 是 Hadoop 数据库,是一个分布式、可扩展的大数据存储。 当需要对大数据进行随机、实时的读/写访问时,请使用 Apache HBase™。 这个项目的目标是在商用硬件集群上托管非常大的表——数十亿行 X 数百万列。 Apache HBase 是一个开源的、 阅读全文
posted @ 2023-12-22 22:25 sober_zero 阅读(650) 评论(0) 推荐(0)
摘要:什么是ClickHouse? ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 它是一款开源的分布式列式数据库管理系统(DBMS),专为处理大规模数据分析而设计。它以高性能、可伸缩性和低延迟查询而著称,是俄罗斯搜索引擎公司Yandex开发的项目,于2016年开源。 阅读全文
posted @ 2023-12-20 22:05 sober_zero 阅读(661) 评论(0) 推荐(1)