2024 年 3月 29 日随笔档案 - 十一vs十一

2024年3月29日

客快物流大数据项目（九十三）：ClickHouse的ReplacingMergeTree深入了解 ClickHouse清除重复数据

摘要： ClickHouse的ReplacingMergeTree深入了解为了解决MergeTree相同主键无法去重的问题，ClickHouse提供了ReplacingMergeTree引擎，用来对主键重复的数据进行去重。删除重复数据可以使用optimize命令手动执行，这个合并操作是在后台运行的，且阅读全文

posted @ 2024-03-29 23:24 十一vs十一阅读(335) 评论(0) 推荐(0) 编辑

客快物流大数据项目(五十一)：数据库表分析物流项目数据库表设计

摘要：数据库表分析一、物流运输管理数据库表 1、揽件表（tbl_collect_package） 2、客户表（tbl_customer） 3、物流系统码表（tbl_codes） 4、快递单据表（tbl_express_bill） 5、快递包裹表（tbl_express_package） 6 阅读全文

posted @ 2024-03-29 23:17 十一vs十一阅读(42) 评论(0) 推荐(0) 编辑

客快物流大数据项目(四十二)：Java代码操作Kudu

摘要： Java代码操作Kudu 一、构建maven工程二、导入依赖三、创建包结构四、初始化方法五、创建表六、插入数据七、查询数据八、修改数据九、删除数据十、修改表十一、删除表阅读全文

posted @ 2024-03-29 23:13 十一vs十一阅读(12) 评论(0) 推荐(0) 编辑

客快物流大数据项目（八十二）：Kudu的读写原理一般有用看1

摘要： Kudu的读写原理一、工作模式 Kudu的工作模式如下图，有些在上面的内容中已经介绍了，这里简单标注一下：每个kudu table按照hash或range分区为多个tablet；每个tablet中包含一个MemRowSet以及多个DiskRowSet；每个DiskRowSet包阅读全文

posted @ 2024-03-29 23:11 十一vs十一阅读(9) 评论(0) 推荐(0) 编辑

客快物流大数据项目(六十二)：主题及指标开发 common包下定义的一些内容一般有用看1

摘要：主题及指标开发一、主题开发业务流程二、离线模块初始化 1、创建包结构 2、创建时间处理工具 3、定义主题宽表及指标结果表的表名 4、物流字典码表数据类型定义枚举类 5、封装公共接口主题及指标开发一、主题开发业务流程二、离阅读全文

posted @ 2024-03-29 22:41 十一vs十一阅读(3) 评论(0) 推荐(0) 编辑

客快物流大数据项目(六十八)：工作流调度 azkaban介绍及用法一般有用图片偏多看1

摘要：工作流调度一、工作流产生背景工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是：为了实现某个业务目标，利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的阅读全文

posted @ 2024-03-29 22:36 十一vs十一阅读(13) 评论(0) 推荐(0) 编辑

客快物流大数据项目（八十五）：实时OLAP分析需求一些组件的特点一般有用看1

摘要：实时OLAP分析需求一、背景介绍在之前的文章学习了离线数仓的构建，但是离线数仓的最大问题即：慢，数据无法实时的通过可视化页面展示出来，通常离线数仓分析的是“T+1”的数据，针对于时效性要求比较高的场景，则无法满足需求，例如：快速实时返回“分组+聚合计算+排序聚合指标”查询需求。阅读全文

posted @ 2024-03-29 22:28 十一vs十一阅读(6) 评论(0) 推荐(0) 编辑

客快物流大数据项目(四十一)：Kudu入门介绍一般有用看1

摘要： Kudu入门介绍一、背景介绍二、新的硬件设备三、Kudu是什么四、Kudu的应用场景五、Kudu架构 Kudu入门介绍一、背景介绍在Kudu之前，大数据主要以两种方式存储；静态数据：以 HDFS 引擎作为存储引擎，适用于高吞吐量的离线大数据阅读全文

posted @ 2024-03-29 22:24 十一vs十一阅读(7) 评论(0) 推荐(0) 编辑

客快物流大数据项目(三)：项目解决方案一般有用看1 kudu和clickhouse

摘要：项目解决方案一、核心业务流程 1、快递单 2、运单 3、干线运输二、逻辑架构三、数据流转四、项目的技术选型 1、流式处理平台 2、分布式计算平台 3、海量数据存储五、框架软件版本六、技术亮点七、服务器资源规划项目解决方案一、核心业务流程操作步骤说明 1 客户下单客户通过微信公阅读全文

posted @ 2024-03-29 22:17 十一vs十一阅读(43) 评论(0) 推荐(0) 编辑

客快物流大数据项目（八十一）： Kudu原理有用看1

摘要： Kudu原理一、表与schema Kudu设计是面向结构化存储的，因此Kudu的表需要用户在建表时定义它的Schema信息，这些Schema信息包含：列定义（含类型） Primary Key定义（用户指定的若干个列的有序组合）数据的唯一性，依赖于用户所提供的Primary Key中的Colu 阅读全文

posted @ 2024-03-29 18:48 十一vs十一阅读(4) 评论(0) 推荐(0) 编辑

客快物流大数据项目（一百）：ClickHouse的使用 spark操作ClickHouse代码

摘要： ClickHouse的使用一、使用Java操作ClickHouse 1、构建maven工程 2、导入依赖  <dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clic 阅读全文

posted @ 2024-03-29 17:48 十一vs十一阅读(80) 评论(0) 推荐(0) 编辑

客快物流大数据项目(四十)：ETL实现方案

摘要：目录 ETL实现方案一、ETL处理流程图二、为什么使用Kudu作为存储介质 ETL实现方案一、ETL处理流程图数据来源：来自于ogg同步到kafka的物流运输数据来自于canal同步到kafka的客户关系数据二、为什么使用Kudu作为存储介质数据库数据上的快速分析目前阅读全文

posted @ 2024-03-29 17:46 十一vs十一阅读(13) 评论(0) 推荐(0) 编辑

客快物流大数据项目（七十）：Impala入门介绍一般有用看1

摘要： Impala入门介绍一、impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具， impala是参照谷歌的新三篇论文（Ca 阅读全文

posted @ 2024-03-29 17:43 十一vs十一阅读(21) 评论(0) 推荐(0) 编辑

客快物流大数据项目（一百零一）：实时OLAP开发 clickhouse的OLAP代码

摘要：实时OLAP开发一、实时ETL处理使用ClickHouse分析物流指标数据，必须将数据存储到ClickHouse中。业务流程：二、SparkSQL基于DataSourceV2自定义数据源 1、Data Source API V1 Spark 1.3 版本开始引入阅读全文

posted @ 2024-03-29 17:35 十一vs十一阅读(11) 评论(0) 推荐(0) 编辑

客快物流大数据项目(一)：物流项目介绍和内容大纲有用总体架构图

摘要：物流项目介绍和内容大纲一、项目简介本项目基于大型物流公司研发的智慧物流大数据平台，该物流公司是国内综合性快递、物流服务商，并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局，拥有大规模的客户群，日订单达上千万，如此规模的业务数据量，传统的数据处理技术已经不能满足企业的经营分析需求。该公司需阅读全文

posted @ 2024-03-29 17:31 十一vs十一阅读(44) 评论(0) 推荐(0) 编辑

公告