10 2022 档案

摘要:一、概述 FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的BI工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。 上面是官方的介绍,其实一般我们会将原始数据通过ETL(抽取(extract 阅读全文
posted @ 2022-10-30 23:11 大数据老司机 阅读(1353) 评论(1) 推荐(1) 编辑
摘要:一、概述 Apache Hudi是一个快速增长的数据湖存储系统,可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语,将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统(HDFS)或云存储上 阅读全文
posted @ 2022-10-30 00:31 大数据老司机 阅读(1360) 评论(0) 推荐(0) 编辑
摘要:一、概述 Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,关于Hudi的更多介绍可以参考我以下几篇文章: 大数据Hadoop之——新一代流式数据湖平台 Apache Hudi 大数据Hadoop之——Apache Hud 阅读全文
posted @ 2022-10-29 01:06 大数据老司机 阅读(1524) 评论(0) 推荐(0) 编辑
摘要:一、概述 Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具,它可以以极低的延迟将数据快速存储到HD 阅读全文
posted @ 2022-10-22 18:40 大数据老司机 阅读(1451) 评论(0) 推荐(0) 编辑
摘要:一、概述 Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具,它可以以极低的延迟将数据快速存储到HD 阅读全文
posted @ 2022-10-16 22:21 大数据老司机 阅读(1428) 评论(0) 推荐(0) 编辑
摘要:一、概述 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于 阅读全文
posted @ 2022-10-15 19:34 大数据老司机 阅读(5083) 评论(0) 推荐(1) 编辑
摘要:一、概述 Elasticsearch是一个基于Lucene的搜索引擎。它提供了具有HTTP Web界面和无架构JSON文档的分布式,多租户能力的全文搜索引擎。Elasticsearch是用Java开发的,根据Apache许可条款作为开源发布。 官方文档:https://www.elastic.co/ 阅读全文
posted @ 2022-10-14 00:03 大数据老司机 阅读(396) 评论(0) 推荐(0) 编辑
摘要:一、概述 大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。 官方文档: https://azkaban.readthedocs. 阅读全文
posted @ 2022-10-07 15:46 大数据老司机 阅读(368) 评论(0) 推荐(0) 编辑
摘要:一、概述 Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。 Flink官网:https://flink.apache.org/ 不同版本的文档:https://nigh 阅读全文
posted @ 2022-10-05 09:41 大数据老司机 阅读(3966) 评论(0) 推荐(0) 编辑
摘要:一、概述 Presto是Facebook开源的MPP(Massively Parallel Processing:大规模并行处理)架构的OLAP(on-line transaction processing:联机事务处理),完全基于内存的并⾏计算,可针对不同数据源,执行大容量数据集的一款分布式SQL 阅读全文
posted @ 2022-10-03 22:22 大数据老司机 阅读(1001) 评论(0) 推荐(0) 编辑
摘要:一、概述 Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。这里只讲部署,相关概念可以参考我这篇文章:大数据Hadoop之——数据仓库Hive Hive 架构 阅读全文
posted @ 2022-10-01 18:23 大数据老司机 阅读(2551) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示