随笔分类 - 数据库相关
行列存储优劣势
摘要:随着业务越来越看重数据的重要性,相信大家也做了很多多维分析的需求,在调研技术选型时候,会发现很多olap,如druid、clickhouse、starRocks都是列式存储数据库,今天我们来通过对比行存储简单说下列存储 举个栗子来说下列存储和行存储 要过年回家了,今天做了核酸检测,我们就以存储核酸检
阅读全文
大数据工程架构组件
摘要:Hudi https://www.alibabacloud.com/help/zh/e-mapreduce/latest/hudi-overview https://blog.csdn.net/u013522009/article/details/123982386 Kafka https://ba
阅读全文
韩家炜在数据挖掘上开辟的「小路」是什么
摘要:无结构的 Big Data 变成有用的 Knowledge
阅读全文
MySQL索引相关
摘要:MySQL索引采用的是B+TREE,多列联合索引是一个有序元组<a1, a2, …, an>,其中各个元素均为数据表的一列。设一个表有M列,建一个度为n的多列联合索引,深度h = lognM,设一组索引列的大小为s,索引文件的大小可以计算为s*M*(1+M/n+M/n2+M/n3+。。。。)SQLServer索引可以include非索引列,include的最大好处是这些列只需要在叶子节点存在,索引可以有效减小索引文件的大小,同时一个页面上可以存储更多的内节点,提高减少磁盘IO。MySQL等数据库的索引为什么使用B+TREE而不是B-TREE,一种说法是由于B+Tree内节点去掉了d
阅读全文
Yahoo数据仓库架构简介
摘要:Yahoo数据仓库的整体架构Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成,hadoop集群是一个计算平台,完成所有ETL数据处理过程;Oracle集群只是一个查询环境。 数据通过Data highway从源系统加载进入数据
阅读全文
Ralph Kimball 数据仓库设计技巧集锦
摘要:Ralph Kimball 数据仓库设计技巧集锦
阅读全文