随笔分类 -  传传传传大数据

摘要: 阅读全文
posted @ 2025-01-16 22:10 十一vs十一 阅读(2) 评论(0) 推荐(0) 编辑
摘要:--数仓数据量 --敏捷开发流程 --git版本管理 --发版,提测流程 -- -- 阅读全文
posted @ 2025-01-15 23:03 十一vs十一 阅读(2) 评论(0) 推荐(0) 编辑
摘要:--项目2 -- --最起码需要有三个功能:1标签圈人,2用户画像3.标签查询 --技术选型 kandao --总结 --项目介绍 阅读全文
posted @ 2025-01-15 21:58 十一vs十一 阅读(1) 评论(0) 推荐(0) 编辑
摘要:--拉链表 --增量导入是没有overwrite 且加载的是最新分区的数据 --查看数据倾斜 -- --kafka基准测试 --hbase写入流程 --rowkey设计 --spark-submit提交流程 --yarn提交流程 阅读全文
posted @ 2025-01-13 21:45 十一vs十一 阅读(1) 评论(0) 推荐(0) 编辑
摘要:Spark操作Kudu dataFrame操作kudu 一、DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读/写API。要设置读取,我们需要为Kudu表指定选项,命名我们要读取的表以及为表提供服务的K 阅读全文
posted @ 2024-03-30 00:36 十一vs十一 阅读(11) 评论(0) 推荐(0) 编辑
摘要:​ClickHouse的深入了解 一、介绍 ClickHouse是俄罗斯的Yandex于2016年开源的面向OLAP列式数据库管理系统(DBMS) ClickHouse采用 C++ 语言开发,以卓越的查询性能著称,在基准测试中超过了目前很多主流的列式数据库 ClickHouse集群的每台服务器每秒能 阅读全文
posted @ 2024-03-30 00:34 十一vs十一 阅读(58) 评论(0) 推荐(0) 编辑
摘要:Spark操作Kudu DML操作 Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成. 包括: INSERT - 将DataFrame的行插入Kudu表。请注意,虽然API完全支持INSERT,但不鼓励在Spark中使用它。 使用INSERT是有风险的,因为Spar 阅读全文
posted @ 2024-03-30 00:29 十一vs十一 阅读(5) 评论(0) 推荐(0) 编辑
摘要:Spark操作Kudu创建表 Spark与KUDU集成支持: DDL操作(创建/删除) 本地Kudu RDD Native Kudu数据源,用于DataFrame集成 从kudu读取数据 从Kudu执行插入/更新/ upsert /删除 谓词下推 Kudu和Spark SQL之间的模式映射 到目前为 阅读全文
posted @ 2024-03-30 00:29 十一vs十一 阅读(25) 评论(0) 推荐(0) 编辑
摘要:​ClickHouse的ReplacingMergeTree深入了解 为了解决MergeTree相同主键无法去重的问题,ClickHouse提供了ReplacingMergeTree引擎,用来对主键重复的数据进行去重。 删除重复数据可以使用optimize命令手动执行,这个合并操作是在后台运行的,且 阅读全文
posted @ 2024-03-29 23:24 十一vs十一 阅读(844) 评论(0) 推荐(0) 编辑
摘要:数据库表分析 一、物流运输管理数据库表 1、揽件表(tbl_collect_package) 2、客户表(tbl_customer) 3、物流系统码表(tbl_codes) 4、快递单据表(tbl_express_bill) 5、快递包裹表(tbl_express_package) ​​​​​​​6 阅读全文
posted @ 2024-03-29 23:17 十一vs十一 阅读(223) 评论(0) 推荐(0) 编辑
摘要:Java代码操作Kudu 一、构建maven工程 二、导入依赖 三、​​​​​​​创建包结构 四、​​​​​​​初始化方法 五、​​​​​​​创建表 六、​​​​​​​插入数据 七、​​​​​​​查询数据 八、修改数据 九、​​​​​​​删除数据 十、​​​​​​​修改表 十一、​​​​​​​删除表 阅读全文
posted @ 2024-03-29 23:13 十一vs十一 阅读(20) 评论(0) 推荐(0) 编辑
摘要:Kudu的读写原理 一、​​​​​​​工作模式 Kudu的工作模式如下图,有些在上面的内容中已经介绍了,这里简单标注一下: 每个kudu table按照hash或range分区为多个tablet; 每个tablet中包含一个MemRowSet以及多个DiskRowSet; 每个DiskRowSet包 阅读全文
posted @ 2024-03-29 23:11 十一vs十一 阅读(22) 评论(0) 推荐(0) 编辑
摘要:主题及指标开发 一、主题开发业务流程 二、离线模块初始化 1、创建包结构 2、​​​​​​​创建时间处理工具 3、​​​​​​​定义主题宽表及指标结果表的表名 4、​​​​​​​物流字典码表数据类型定义枚举类 5、​​​​​​​封装公共接口 主题及指标开发 一、主题开发业务流程 二、​​​​​​​离 阅读全文
posted @ 2024-03-29 22:41 十一vs十一 阅读(9) 评论(0) 推荐(0) 编辑
摘要:工作流调度 一、工作流产生背景 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。 一个完整的 阅读全文
posted @ 2024-03-29 22:36 十一vs十一 阅读(55) 评论(0) 推荐(0) 编辑
摘要:​实时OLAP分析需求 一、​​​​​​​背景介绍 在之前的文章学习了离线数仓的构建,但是离线数仓的最大问题即:慢,数据无法实时的通过可视化页面展示出来,通常离线数仓分析的是“T+1”的数据,针对于时效性要求比较高的场景,则无法满足需求,例如:快速实时返回“分组+聚合计算+排序聚合指标”查询需求。 阅读全文
posted @ 2024-03-29 22:28 十一vs十一 阅读(19) 评论(0) 推荐(0) 编辑
摘要:Kudu入门介绍 一、背景介绍 二、新的硬件设备 三、Kudu是什么 ​​​​​​​四、​​​​​​​Kudu的应用场景 五、​​​​​​​Kudu架构 Kudu入门介绍 一、背景介绍 在Kudu之前,大数据主要以两种方式存储; 静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据 阅读全文
posted @ 2024-03-29 22:24 十一vs十一 阅读(19) 评论(0) 推荐(0) 编辑
摘要:项目解决方案 一、核心业务流程 1、快递单 2、运单 3、干线运输 二、逻辑架构 三、数据流转 四、项目的技术选型 1、流式处理平台 2、分布式计算平台 3、海量数据存储 五、框架软件版本 六、技术亮点 七、服务器资源规划 项目解决方案 一、核心业务流程 操作步骤 说明 1 客户下单 客户通过微信公 阅读全文
posted @ 2024-03-29 22:17 十一vs十一 阅读(68) 评论(0) 推荐(0) 编辑
摘要:ClickHouse的使用 一、使用Java操作ClickHouse 1、构建maven工程 2、​​​​​​​导入依赖 <!-- Clickhouse --> <dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clic 阅读全文
posted @ 2024-03-29 17:48 十一vs十一 阅读(147) 评论(0) 推荐(0) 编辑
摘要:目录 ETL实现方案 一、ETL处理流程图 二、为什么使用Kudu作为存储介质 ETL实现方案 一、​​​​​​​ETL处理流程图 数据来源: 来自于ogg同步到kafka的物流运输数据 来自于canal同步到kafka的客户关系数据 二、为什么使用Kudu作为存储介质 数据库数据上的快速分析 目前 阅读全文
posted @ 2024-03-29 17:46 十一vs十一 阅读(32) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示