03 2024 档案
摘要:一.大数据模型 8种常见的大数据分析模型:1、留存分析模型;2、漏斗分析模型;3、全行为路径分析;4、热图分析模型;5、事件分析模型;6、用户分群模型;7、用户分析模型;8、黏性分析模型。 1、留存分析模型 留存分析模型是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少
阅读全文
摘要:Spark操作Kudu dataFrame操作kudu 一、DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读/写API。要设置读取,我们需要为Kudu表指定选项,命名我们要读取的表以及为表提供服务的K
阅读全文
摘要:ClickHouse的深入了解 一、介绍 ClickHouse是俄罗斯的Yandex于2016年开源的面向OLAP列式数据库管理系统(DBMS) ClickHouse采用 C++ 语言开发,以卓越的查询性能著称,在基准测试中超过了目前很多主流的列式数据库 ClickHouse集群的每台服务器每秒能
阅读全文
摘要:Spark操作Kudu DML操作 Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成. 包括: INSERT - 将DataFrame的行插入Kudu表。请注意,虽然API完全支持INSERT,但不鼓励在Spark中使用它。 使用INSERT是有风险的,因为Spar
阅读全文
摘要:Spark操作Kudu创建表 Spark与KUDU集成支持: DDL操作(创建/删除) 本地Kudu RDD Native Kudu数据源,用于DataFrame集成 从kudu读取数据 从Kudu执行插入/更新/ upsert /删除 谓词下推 Kudu和Spark SQL之间的模式映射 到目前为
阅读全文
摘要:ClickHouse的ReplacingMergeTree深入了解 为了解决MergeTree相同主键无法去重的问题,ClickHouse提供了ReplacingMergeTree引擎,用来对主键重复的数据进行去重。 删除重复数据可以使用optimize命令手动执行,这个合并操作是在后台运行的,且
阅读全文
摘要:数据库表分析 一、物流运输管理数据库表 1、揽件表(tbl_collect_package) 2、客户表(tbl_customer) 3、物流系统码表(tbl_codes) 4、快递单据表(tbl_express_bill) 5、快递包裹表(tbl_express_package) 6
阅读全文
摘要:Java代码操作Kudu 一、构建maven工程 二、导入依赖 三、创建包结构 四、初始化方法 五、创建表 六、插入数据 七、查询数据 八、修改数据 九、删除数据 十、修改表 十一、删除表
阅读全文
摘要:Kudu的读写原理 一、工作模式 Kudu的工作模式如下图,有些在上面的内容中已经介绍了,这里简单标注一下: 每个kudu table按照hash或range分区为多个tablet; 每个tablet中包含一个MemRowSet以及多个DiskRowSet; 每个DiskRowSet包
阅读全文
摘要:主题及指标开发 一、主题开发业务流程 二、离线模块初始化 1、创建包结构 2、创建时间处理工具 3、定义主题宽表及指标结果表的表名 4、物流字典码表数据类型定义枚举类 5、封装公共接口 主题及指标开发 一、主题开发业务流程 二、离
阅读全文
摘要:工作流调度 一、工作流产生背景 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。 一个完整的
阅读全文
摘要:实时OLAP分析需求 一、背景介绍 在之前的文章学习了离线数仓的构建,但是离线数仓的最大问题即:慢,数据无法实时的通过可视化页面展示出来,通常离线数仓分析的是“T+1”的数据,针对于时效性要求比较高的场景,则无法满足需求,例如:快速实时返回“分组+聚合计算+排序聚合指标”查询需求。
阅读全文
摘要:Kudu入门介绍 一、背景介绍 二、新的硬件设备 三、Kudu是什么 四、Kudu的应用场景 五、Kudu架构 Kudu入门介绍 一、背景介绍 在Kudu之前,大数据主要以两种方式存储; 静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据
阅读全文
摘要:项目解决方案 一、核心业务流程 1、快递单 2、运单 3、干线运输 二、逻辑架构 三、数据流转 四、项目的技术选型 1、流式处理平台 2、分布式计算平台 3、海量数据存储 五、框架软件版本 六、技术亮点 七、服务器资源规划 项目解决方案 一、核心业务流程 操作步骤 说明 1 客户下单 客户通过微信公
阅读全文
摘要:Kudu原理 一、表与schema Kudu设计是面向结构化存储的,因此Kudu的表需要用户在建表时定义它的Schema信息,这些Schema信息包含: 列定义(含类型) Primary Key定义(用户指定的若干个列的有序组合) 数据的唯一性,依赖于用户所提供的Primary Key中的Colu
阅读全文
摘要:ClickHouse的使用 一、使用Java操作ClickHouse 1、构建maven工程 2、导入依赖 <!-- Clickhouse --> <dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clic
阅读全文
摘要:目录 ETL实现方案 一、ETL处理流程图 二、为什么使用Kudu作为存储介质 ETL实现方案 一、ETL处理流程图 数据来源: 来自于ogg同步到kafka的物流运输数据 来自于canal同步到kafka的客户关系数据 二、为什么使用Kudu作为存储介质 数据库数据上的快速分析 目前
阅读全文
摘要:Impala入门介绍 一、impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, impala是参照谷歌的新三篇论文(Ca
阅读全文
摘要:实时OLAP开发 一、实时ETL处理 使用ClickHouse分析物流指标数据,必须将数据存储到ClickHouse中。 业务流程: 二、SparkSQL基于DataSourceV2自定义数据源 1、Data Source API V1 Spark 1.3 版本开始引入
阅读全文
摘要:物流项目介绍和内容大纲 一、项目简介 本项目基于大型物流公司研发的智慧物流大数据平台,该物流公司是国内综合性快递、物流服务商,并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局,拥有大规模的客户群,日订单达上千万,如此规模的业务数据量,传统的数据处理技术已经不能满足企业的经营分析需求。该公司需
阅读全文
摘要:再说ranger之前需要明白一下大数据的安全体系的整体介绍,安全体系其实也就是权限可控,先说说权限:权限管理的目标,绝对不是简单的在技术层面建立起用户,密码和权限点的映射关系这么简单的事,更重要的是要从流程合理性,业务隔离,实施代价,可执行性等方面进行考虑。单方面强调安全,结果往往并不理想。重要的通
阅读全文
摘要:1 atlas的使用包含两方面:注入元数据信息到atlas中(本质上是写入元数据到atlas中)注入方式一:通过atlas为数据系统开发好的hook来注入方式二:通过atlas自带的web-ui来认同填写元数据信息注入方式三:通过调用atlas对外暴露的接口来灵活注入修改atlas的元数据的方式方式
阅读全文
摘要:Azkaban 是由Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流 内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式, 通 过配置中的 Dependencies 来设置依赖关系。Azkaban 使用job 配置文件建立任务之间的依赖
阅读全文
摘要:【这部分Kerberos原理,是最新总结,仅做参考】 Kerberos基本概念: 1. Kerberos中有三种角色: 服务器, 客户端 KDC(认证服务器) 客户端和服务器要信任KDC 并且KDC要存储它们每个人的私有密码所生成的Hash密钥.这些hashkey被存储在account databa
阅读全文
摘要:1.ClickHouse是什么ClickHouse联机分析的数据库管理系统 2.列式存储和行式存储的区别列式存储的优点是同一列存放在一起,由于数据类型相同,可以进行很好的压缩,排序更加方便,查询时不需要读取一整行数据行式存储的优点是支持事务处理,更好的支持一致性 3.MergeTree是什么merg
阅读全文
摘要:问:什么是Skywalking?答:Skywalking是一个针对分布式系统的开源应用程序性能监控(APM)工具。它专门为微服务、云原生和基于容器(例如Kubernetes)的架构设计,能够提供实时的可视化监控和健康状态,包括响应时间、吞吐量、错误率和资源利用率等指标。 问:Skywalking是如
阅读全文
摘要:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道 便于记忆:银行是一个企业,同时也是一个机构,涉及企业机构就会有资产,财务的存在,银行有自己的产品(信用卡,黄金,期货等)有产品就需要有人进行买卖,买卖的人这就是当事人,进行的买卖就是销售,有销售就得有渠道(不管是线上还是线下),在进行买卖
阅读全文
摘要:Sentinel限流入门Sentinel是什么?(阿里推出的一个流量控制平台防卫兵)类似的Sentinel产品还有那些?(hystrix-一代微服务产品)Sentinel是如何对请求进行限流的?(基于Sentinel依赖提供的拦截器基于Sentinel依赖提供的拦截器)你了解哪些限流算法?( 计数器
阅读全文