随笔 - 368, 文章 - 0, 评论 - 56, 阅读 - 94万
  博客园  :: 首页  :: 联系 :: 管理

随笔分类 -  OLAP

摘要:1、SQL参考 1.1 用户账户管理 1.2 集群管理 1.3 DDL 1.4 DML 2、函数参考 2.1 日期函数 2.2 字符串函数 2.3 聚合函数 2.4 Cast转换函数 3、数据类型 4、系统变量 5、错误码 6、系统限制 参考 https://www.kancloud.cn/dori 阅读全文

posted @ 2021-09-05 17:47 天戈朱 阅读(627) 评论(0) 推荐(0) 编辑

摘要:ODBC External Table Of Doris 提供了Doris通过数据库访问的标准接口(ODBC)来访问外部表 ODBC Driver的安装和配置: 要求所有的BE节点都安装上相同的Driver,并且安装路径相同,同时有相同的be /conf/odbcinst.ini 的配置。 支持数据 阅读全文

posted @ 2021-09-05 17:47 天戈朱 阅读(310) 评论(0) 推荐(0) 编辑

摘要:Colocation Join 是在 Doris 0.9 版本中引入的新功能。旨在为某些 Join 查询提供本地性优化,来减少数据在节点间的传输耗时,加速查询。 1、基本理论 Join 的常见连接类型分为以下几种: INNER JOIN OUTER JOIN CROSS JOIN SEMI JOIN 阅读全文

posted @ 2021-09-05 17:46 天戈朱 阅读(1558) 评论(0) 推荐(0) 编辑

摘要:DorisDB提供了多种导入方式,用户可以根据数据量大小、导入频率等要求选择最适合自己业务需求的导入方式。 数据导入: 1、离线数据导入:如果数据源是Hive/HDFS,推荐采用 Broker Load 导入, 如果数据表很多导入比较麻烦可以考虑使用Hive外表直连查询,性能会比Broker loa 阅读全文

posted @ 2021-09-05 17:46 天戈朱 阅读(6063) 评论(0) 推荐(0) 编辑

摘要:目录: 数据查询 数据导入 元数据修改 1、查询 用户可使用MySQL客户端连接FE,执行SQL查询, 获得结果,查询流程如下: 分步说明: ① MySQL客户端执行DQL SQL命令。 ② FE解析, 分析, 改写, 优化和规划, 生成分布式执行计划。 ③ 分布式执行计划由 若干个可在单台be上执 阅读全文

posted @ 2021-09-05 17:45 天戈朱 阅读(599) 评论(0) 推荐(0) 编辑

摘要:在 Doris 中,数据都以表(Table)的形式进行逻辑上的描述 名词解释 数据分布:数据分布是将数据划分为子集, 按一定规则, 均衡地分布在不同节点上,以期最大限度地利用集群的并发性能 短查询:short-scan query,指扫描数据量不大,单机就能完成扫描的查询 长查询:long-scan 阅读全文

posted @ 2021-09-05 17:44 天戈朱 阅读(3902) 评论(0) 推荐(1) 编辑

该文被密码保护。

posted @ 2021-08-01 17:09 天戈朱 阅读(0) 评论(0) 推荐(0) 编辑

摘要:使用场景: 在实际的业务场景中,通常存在两种场景并存的分析需求:对固定维度的聚合分析 和 对原始明细数据任意维度的分析。 例如,在销售场景中,每条订单数据包含这几个维度信息(item_id, sold_time, customer_id, price)。在这种场景下,有两种分析需求并存: 业务方需要 阅读全文

posted @ 2021-07-26 08:27 天戈朱 阅读(3531) 评论(0) 推荐(1) 编辑

摘要:DorisDB根据摄入数据和实际存储数据之间的映射关系, 将数据表的明细表, 聚合表和更新表, 分别对应有明细模型, 聚合模型和更新模型。 Aggregate (聚合模型) : 将表中的列分为了Key和Value两种,数据会根据维度列进行分组,并对指标列进行聚合。 Unique (唯一主键模型): 阅读全文

posted @ 2021-07-26 08:24 天戈朱 阅读(3780) 评论(0) 推荐(1) 编辑

摘要:Apache Doris —— 为分析而生 Doris发展历程: Doris发展比较重要的关键节点与事件 #2008 - Doris1 :「筑巢引凤」的重要基石 早年,百度最主要的收入来源是广告。广告主需要通过报表服务来查看广告的展现、点击、消费等信息,并且能够需要通过不同维度来获得广告的消费情况, 阅读全文

posted @ 2021-07-26 08:20 天戈朱 阅读(908) 评论(0) 推荐(0) 编辑

摘要:Doris是一个MPP的OLAP系统,以较低的成本提供在大数据集上的高性能分析和报表查询功能。 MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终 阅读全文

posted @ 2021-07-26 08:20 天戈朱 阅读(5873) 评论(0) 推荐(0) 编辑

该文被密码保护。

posted @ 2021-07-19 18:53 天戈朱 阅读(0) 评论(0) 推荐(0) 编辑

摘要:数据应用,是真正体现数仓价值的部分,包括且又不局限于 数据可视化、BI、OLAP、即席查询,实时大屏,用户画像,推荐系统,数据分析,数据挖掘,人脸识别,风控反欺诈,ABtest等等 OLAP(On-Line Analytical Processing):在线分析处理,主要用于支持企业决策管理分析。 阅读全文

posted @ 2021-03-14 13:51 天戈朱 阅读(1031) 评论(0) 推荐(0) 编辑

摘要:阿里云实时计算负责人 - 王峰(莫问)/ FFA_2020-Flink as a Unified Engine - Now and Next-V4 2020年Flink 基于Flink 的流批一体数仓 基于Flink流批一体数据湖架构 PyFlink Flink Native on K8S 双链路数 阅读全文

posted @ 2021-03-14 13:45 天戈朱 阅读(1374) 评论(0) 推荐(0) 编辑

摘要:基本概念 维度(Dimension):表示数据的属性,一个维度一般会有一个维表(也可能多个),事实表会有一个字段关联维表。 退化维度:有的维度可以没有维度表,因为这种维度比较简单,没有更多属性,没有必要加一个维度表。这种维度叫退化维度。比如事实表里有一个支付方式字段,只有已确定的有限几种取值,比如 阅读全文

posted @ 2018-06-26 19:24 天戈朱 阅读(896) 评论(1) 推荐(1) 编辑

摘要:MDX重点函数 成员函数 1、.CurrentMember 获取运行时当前的成员,用法:<Dimension>.CurrentMember 。 2、.Parent 获取运行时当前的成员的父成员。用法:<Member>.Parent。 3、.PrevMember/.NextMember 返回当前成员的 阅读全文

posted @ 2018-06-26 19:24 天戈朱 阅读(853) 评论(0) 推荐(1) 编辑

摘要:SSB(Star Schema Benchmark)是麻省州立大学波士顿校区的研究人员定义的基于现实商业应用的数据模型,业界公认用来模拟决策支持类应用,比较公正和中立。学术界和工业界普遍采用它来评价决策支持技术方面应用的性能。全方位评测系统的整体商业计算综合能力,对厂商的要求更高。在银行信贷分析和信 阅读全文

posted @ 2018-06-12 08:52 天戈朱 阅读(4457) 评论(0) 推荐(0) 编辑

摘要:在设计数据仓库模型的时候,最常见的两种是星型模型与雪花模型。选择哪一种需要根据业务需求以及性能的多重考量来定。 星型模型 在星型模型当中,一张事实表被若干张维度表所包围。每一个维度代表了一张表,有主键关联事实表当中的外键。 所有的事实都必须保持同一个粒度 不同的维度之间没有任何关联 雪花模型 雪花模 阅读全文

posted @ 2018-06-12 08:52 天戈朱 阅读(2306) 评论(0) 推荐(0) 编辑

摘要:Saiku是一个轻量级的OLAP分析引擎,可以方便的扩展、嵌入和配置。Saiku通过REST API连接OLAP系统,利用其友好的界面为用户提供直观的分析数据的方式,它是基于jQuery做的前端界面. Saiku成立于2008年,由Tom Barber和Paul Stoellberger研发。最初叫 阅读全文

posted @ 2016-12-06 20:33 天戈朱 阅读(7914) 评论(0) 推荐(0) 编辑

摘要:Apache Calcite是面向Hadoop新的查询引擎,它提供了标准的SQL语言、多种查询优化和连接各种数据源的能力,除此之外,Calcite还提供了OLAP和流处理的查询引擎。Calcite之前的名称叫做optiq,optiq起初在Hive项目中,为Hive提供基于成本模型的优化。2014年5 阅读全文

posted @ 2016-12-06 20:32 天戈朱 阅读(1944) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示