上一页 1 2 3 4 5 6 7 8 ··· 53 下一页

论文解析 -- Big Metadata: When Metadata is Big Data

摘要: 要解决的问题就是对于云原生数据库,越来越大的meta应该怎么管理 传统的数据库,都是将catalog存在系统表里面 大数据系统,比如Colossus将meta存在Big table里面;Hadoop生态有Hive metastore Delta lake用事务log的方式来记录meta 并且对于AP 阅读全文
posted @ 2022-05-18 16:17 fxjwind 阅读(240) 评论(0) 推荐(0) 编辑

Hudi Concepts

摘要: 和Hadoop比,增加两个功能, 更新和删除 delta,变更流 Apache Hudi (pronounced “Hudi”) provides the following streaming primitives over hadoop compatible storages Update/De 阅读全文
posted @ 2022-05-06 16:03 fxjwind 阅读(115) 评论(0) 推荐(0) 编辑

Apache Hudi简介

摘要: Hudi: Uber Engineering’s Incremental Processing Framework on Apache Hadoop With the evolution of storage formats like Apache Parquet and Apache ORC an 阅读全文
posted @ 2022-04-25 15:53 fxjwind 阅读(654) 评论(0) 推荐(0) 编辑

论文解析 -- Monarch: Google’s Planet-Scale In-Memory Time Series Database

摘要: Google 20年发的时序库的paper 首先看看系统架构, 设计时,首先考虑CAP的balance问题,向Spanner这样的高一致性方案,明显不适合监控系统,所以Monarch牺牲一致性来保证实时性和可用性 Monarch’s design is determined by its prima 阅读全文
posted @ 2022-04-19 17:55 fxjwind 阅读(166) 评论(0) 推荐(0) 编辑

论文解析 -- Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics

摘要: 数仓新架构的特点,直接访问的开放格式,天然支持机器学习框架,好的性能 This paper argues that the data warehouse architecture as we know it today will wane in the coming years and be rep 阅读全文
posted @ 2022-04-12 18:07 fxjwind 阅读(250) 评论(0) 推荐(0) 编辑

论文解析 -- Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores

摘要: INTRODUCTION 提出对象存储作为数据系统的存储层,低成本,实现存算分离 Cloud object stores such as Amazon S3 [4] and Azure Blob Storage [17] have become some of the largest and mos 阅读全文
posted @ 2022-04-12 14:48 fxjwind 阅读(296) 评论(0) 推荐(0) 编辑

Readings in Streaming Database Systems系列笔记

摘要: The Future of SQL: Databases Meet Stream Processing https://www.confluent.io/blog/databases-meet-stream-processing-the-future-of-sql/ 首先时代的改变,导致SQL所面对 阅读全文
posted @ 2022-03-30 16:55 fxjwind 阅读(78) 评论(0) 推荐(0) 编辑

K8S权威指南摘要

摘要: Master Node RC,Replication Controller Replica Set Deployment Service Pod Lable Annotation Namespace 服务发现 网络IP 采用NodePort,对外暴露service, kubelet kube-pro 阅读全文
posted @ 2022-03-29 14:27 fxjwind 阅读(276) 评论(0) 推荐(0) 编辑

PrestoSQL(trinodb)源码分析 - 执行(下)

摘要: TaskExecutor 那么都准备好了,就要开始真正的执行了 初始化的时候 增加TaskRunner线程 TaskRunner 核心就是不断的从waitingSplits中获取split,然后process 到这会创建driver, CreateDriver 先使用之前的operatorFacto 阅读全文
posted @ 2022-01-07 15:35 fxjwind 阅读(734) 评论(2) 推荐(0) 编辑

PrestoSQL(trinodb)源码分析 - 执行(上)

摘要: SqlTaskManager Worker的SqlTaskManager负责接收发来的TaskRequest, doUpdateTask Get或创建SqlTask,仅仅新的Task需要创建, tasks是LoadingCache<TaskId, SqlTask> 最终调用updateTask, 生 阅读全文
posted @ 2021-12-21 17:47 fxjwind 阅读(793) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 53 下一页