2022 年 10月随笔档案 - 大数据老司机

大数据Hadoop之——智能数据分析可视化BI软件 FineBI

摘要：一、概述 FineBI 是帆软软件有限公司推出的一款商业智能（Business Intelligence）产品。FineBI 是定位于自助大数据分析的BI工具，能够帮助企业的业务人员和数据分析师，开展以问题导向的探索式分析。上面是官方的介绍，其实一般我们会将原始数据通过ETL（抽取（extract 阅读全文

posted @ 2022-10-30 23:11 大数据老司机阅读(1353) 评论(1) 推荐(1) 编辑

大数据Hadoop之——Apache Hudi 与 Presto/Trino集成

摘要：一、概述 Apache Hudi是一个快速增长的数据湖存储系统，可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语，将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统（HDFS）或云存储上阅读全文

posted @ 2022-10-30 00:31 大数据老司机阅读(1360) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Apache Hudi 数据湖实战操作（FlinkCDC）

摘要：一、概述 Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，关于Hudi的更多介绍可以参考我以下几篇文章：大数据Hadoop之——新一代流式数据湖平台 Apache Hudi 大数据Hadoop之——Apache Hud 阅读全文

posted @ 2022-10-29 01:06 大数据老司机阅读(1524) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）

摘要：一、概述 Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具，它可以以极低的延迟将数据快速存储到HD 阅读全文

posted @ 2022-10-22 18:40 大数据老司机阅读(1451) 评论(0) 推荐(0) 编辑

大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

摘要：一、概述 Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具，它可以以极低的延迟将数据快速存储到HD 阅读全文

posted @ 2022-10-16 22:21 大数据老司机阅读(1428) 评论(0) 推荐(0) 编辑

【云原生】Spark on k8s 讲解与实战操作

摘要：一、概述 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于阅读全文

posted @ 2022-10-15 19:34 大数据老司机阅读(5083) 评论(0) 推荐(1) 编辑

【云原生】Elasticsearch + Kibana on k8s 讲解与实战操作

摘要：一、概述 Elasticsearch是一个基于Lucene的搜索引擎。它提供了具有HTTP Web界面和无架构JSON文档的分布式，多租户能力的全文搜索引擎。Elasticsearch是用Java开发的，根据Apache许可条款作为开源发布。官方文档：https://www.elastic.co/ 阅读全文

posted @ 2022-10-14 00:03 大数据老司机阅读(396) 评论(0) 推荐(0) 编辑

【云原生】Azkaban on k8s 讲解与实战操作

摘要：一、概述大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序（任务）运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。官方文档： https://azkaban.readthedocs. 阅读全文

posted @ 2022-10-07 15:46 大数据老司机阅读(368) 评论(0) 推荐(0) 编辑

【云原生】Flink on k8s 讲解与实战操作

摘要：一、概述 Flink核心是一个流式的数据流执行引擎，并且能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布，数据通信及容错机制等功能。 Flink官网：https://flink.apache.org/ 不同版本的文档：https://nigh 阅读全文

posted @ 2022-10-05 09:41 大数据老司机阅读(3966) 评论(0) 推荐(0) 编辑

【云原生】Presto/Trino on k8s 环境部署

摘要：一、概述 Presto是Facebook开源的MPP（Massively Parallel Processing：大规模并行处理）架构的OLAP（on-line transaction processing：联机事务处理），完全基于内存的并⾏计算，可针对不同数据源，执行大容量数据集的一款分布式SQL 阅读全文

posted @ 2022-10-03 22:22 大数据老司机阅读(1001) 评论(0) 推荐(0) 编辑

【云原生】Hive on k8s 环境部署

摘要：一、概述 Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统。这里只讲部署，相关概念可以参考我这篇文章：大数据Hadoop之——数据仓库Hive Hive 架构阅读全文

posted @ 2022-10-01 18:23 大数据老司机阅读(2551) 评论(0) 推荐(0) 编辑

技术栈

匠人精神，持之以恒！

10 2022 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论