上一页 1 2 3 4 5 6 7 8 9 ··· 76 下一页
摘要: ​实时OLAP分析需求 一、​​​​​​​背景介绍 在之前的文章学习了离线数仓的构建,但是离线数仓的最大问题即:慢,数据无法实时的通过可视化页面展示出来,通常离线数仓分析的是“T+1”的数据,针对于时效性要求比较高的场景,则无法满足需求,例如:快速实时返回“分组+聚合计算+排序聚合指标”查询需求。 阅读全文
posted @ 2024-03-29 22:28 十一vs十一 阅读(6) 评论(0) 推荐(0) 编辑
摘要: Kudu入门介绍 一、背景介绍 二、新的硬件设备 三、Kudu是什么 ​​​​​​​四、​​​​​​​Kudu的应用场景 五、​​​​​​​Kudu架构 Kudu入门介绍 一、背景介绍 在Kudu之前,大数据主要以两种方式存储; 静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据 阅读全文
posted @ 2024-03-29 22:24 十一vs十一 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 项目解决方案 一、核心业务流程 1、快递单 2、运单 3、干线运输 二、逻辑架构 三、数据流转 四、项目的技术选型 1、流式处理平台 2、分布式计算平台 3、海量数据存储 五、框架软件版本 六、技术亮点 七、服务器资源规划 项目解决方案 一、核心业务流程 操作步骤 说明 1 客户下单 客户通过微信公 阅读全文
posted @ 2024-03-29 22:17 十一vs十一 阅读(37) 评论(0) 推荐(0) 编辑
摘要: ​Kudu原理 一、表与schema Kudu设计是面向结构化存储的,因此Kudu的表需要用户在建表时定义它的Schema信息,这些Schema信息包含: 列定义(含类型) Primary Key定义(用户指定的若干个列的有序组合) 数据的唯一性,依赖于用户所提供的Primary Key中的Colu 阅读全文
posted @ 2024-03-29 18:48 十一vs十一 阅读(3) 评论(0) 推荐(0) 编辑
摘要: ClickHouse的使用 一、使用Java操作ClickHouse 1、构建maven工程 2、​​​​​​​导入依赖 <!-- Clickhouse --> <dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clic 阅读全文
posted @ 2024-03-29 17:48 十一vs十一 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 目录 ETL实现方案 一、ETL处理流程图 二、为什么使用Kudu作为存储介质 ETL实现方案 一、​​​​​​​ETL处理流程图 数据来源: 来自于ogg同步到kafka的物流运输数据 来自于canal同步到kafka的客户关系数据 二、为什么使用Kudu作为存储介质 数据库数据上的快速分析 目前 阅读全文
posted @ 2024-03-29 17:46 十一vs十一 阅读(12) 评论(0) 推荐(0) 编辑
摘要: Impala入门介绍 一、impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, impala是参照谷歌的新三篇论文(Ca 阅读全文
posted @ 2024-03-29 17:43 十一vs十一 阅读(18) 评论(0) 推荐(0) 编辑
摘要: ​实时OLAP开发 一、实时ETL处理 使用ClickHouse分析物流指标数据,必须将数据存储到ClickHouse中。 业务流程: 二、SparkSQL基于DataSourceV2自定义数据源 1、​​​​​​​​​​​​​​Data Source API V1 Spark 1.3 版本开始引入 阅读全文
posted @ 2024-03-29 17:35 十一vs十一 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 物流项目介绍和内容大纲 一、项目简介 本项目基于大型物流公司研发的智慧物流大数据平台,该物流公司是国内综合性快递、物流服务商,并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局,拥有大规模的客户群,日订单达上千万,如此规模的业务数据量,传统的数据处理技术已经不能满足企业的经营分析需求。该公司需 阅读全文
posted @ 2024-03-29 17:31 十一vs十一 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 再说ranger之前需要明白一下大数据的安全体系的整体介绍,安全体系其实也就是权限可控,先说说权限:权限管理的目标,绝对不是简单的在技术层面建立起用户,密码和权限点的映射关系这么简单的事,更重要的是要从流程合理性,业务隔离,实施代价,可执行性等方面进行考虑。单方面强调安全,结果往往并不理想。重要的通 阅读全文
posted @ 2024-03-16 01:30 十一vs十一 阅读(87) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 76 下一页