cube.js预聚合对于大数据量处理的问题 - 荣锋亮 - 博客园

cube.js预聚合对于大数据量处理的问题

cube.js 的预聚合是一个很不错的功能，但是目前是有一些问题的，比如我们包含了大量的数据（几十完，上百万）

目前官方相关的解决方法

数据拆分
基于文件模式的文件处理（比如cubestore支持csv格式的）
基于stream模式的数据处理（目前官方也比较推荐的模式）

一些说明

目前方案都不太好，stream 的driver 是有限的（mysql支持），而且目前cube.js 数据预聚合处理需要download查询数据，然后
再写入外部或者源数据的，也是有问题的，rollup 比较推荐同时可以结合基于时间的分区，会很很多。后期会通过源码分析下cube.js
预聚合的实现机制

参考资料

https://github.com/cube-js/cube.js/pull/2740

posted on 2021-05-14 23:06 荣锋亮阅读(210) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）
· 浏览器原生「磁吸」效果！Anchor Positioning 锚点定位神器解析
· 没有源码，如何修改代码逻辑？

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2020-05-14 CDS是一个企业级的持续交付和DevOps自动化开源平台
2019-05-14 prisma mongodb 试用
2019-05-14 prisma 已经支持mongodb了
2018-05-14 ballerina 学习五使用composer管理ballerina 项目
2018-05-14 ballerina 学习四如何进行项目结构规划
2018-05-14 ballerina 学习三根据swagger 以及protobuf 生成code
2018-05-14 ballerina 学习二 ballerina 命令参数

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称：荣锋亮
园龄： 11年6个月
粉丝： 153
关注： 0

最新随笔

随笔分类 (3865)

随笔档案 (4865)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

.NET安全揭秘系列博文索引

DB

geohash 学习

graphql

graphql 指南

IE 浏览器

IE 浏览器

IIS

IIS 7 配置模块

IOT

win 10 树莓派 IOT

open xml

REST 设计

REST API 设计模式

sharepoint

sharepoint 配置

sql server CLR

sql server CLR

SSIS 学习

SSIS 学习

UML

UML

vsto

vsto

web

Web service

Calling ASP.NET Webservice using JavaScript on Regular Interval of Time

windows 服务

使用Topshelf创建Windows 服务

插件开发

firebreath 插件开发

复杂事件处理

技术

类库

流量分析

Google Analytics

敏捷

移动

运维

海量运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:dremio 的 telemetry 处理简单说明
@colagy 添加dremio-telemetry.yaml 文件配置支持opentelemetry 的server地址就可以了，比如 tracing: type: opentelemetry se...
--荣锋亮
2. Re:dremio 的 telemetry 处理简单说明
请问怎么配置trace呢
--colagy
3. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮谢谢大佬指教...
--净乐思
4. Re:通过instructor 对于LLM 进行结构化输出
@净乐思你这个就不好说了，你得看你到底pdf 上需要提取啥信息，以及业务中pdf 的特点，pdf 大小等，一个建议是能优先直接提取的（不依赖大模型的，可以优先使用pdf 解析库处理），然后就是实际业...
--荣锋亮
5. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮你好大佬，我是从pdf中进行关键信息提取，基本上提取的数据类型都是string，请问该如何定义输出格式呢。...
--净乐思
6. Re:通过instructor 对于LLM 进行结构化输出
@净乐思看你的数据模式，如果是重复的可以使用列表，如果是多，但是并不是一类的，就写多个，核心还是结合你实际业务场景...
--荣锋亮
7. Re:通过instructor 对于LLM 进行结构化输出
博主你好，需要提取的字段很多，如何在结构化输出类中定义字段呢
--净乐思
8. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮好的非常感谢！...
--maxbread
9. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread 随便填写一个都行，不见得必须时ollama，只要是字符串，这个实际不check 是否正确...
--荣锋亮
10. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮那比如别的项目运行时需要openai api的地方填一个ollma就可以了吗？...
--maxbread
11. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread openai sdk 中随便填就行，ollama 的不check key 信息，就是为了兼容...
--荣锋亮
12. Re:ollama qwen2 运行&openai 兼容api 测试
您好！请问ollma兼容的openai api该怎么使用啊？例如有一个项目需要用到这个api，比如“["OPENAI_API_KEY"] = 'YOUR_OPENAI_API_KEY'”这里要使用的a...
--maxbread
13. Re:Quark 基于electron 的跨平台应用开发ide
quark浏览器以其简洁、高效、安全的特点赢得了广大用户的青睐。通过本文的介绍，相信大家已经对夸克浏览器有了更深入的了解。无论是日常浏览还是专业需求，夸克浏览器都能为用户提供出色的服务体验。赶紧去qu...
--浏览器爱好者
14. Re:openmetadata 构建说明
@hello,linux 你是不是没有不是git clone 的项目，构建是在git repo 中构建的吗...
--荣锋亮
15. Re:openmetadata 构建说明
您好，请问一下源码编译构建过程中，service模块构建出现空指针问题，怎么解决?代码分支为tag 1.4.4 ，我尝试了好几个分支都是出现这个问题，构建环境为 [root@94cd3ca7816a ...
--hello,linux
16. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
使用linux，windows 会有各种问题，而且理论上官方是不支持windows了，我一般构建都是linux 或者mac 系统上
--荣锋亮
17. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
大佬之前有遇到类似的错误吗？win10 maven的jdk按照要求的配置的，或者是要在linux上才能编译吗
--messliao
18. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮感谢...
--messliao
19. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 你项目root 目录，执行mvn clean install -DskipTests 就有了，那两个插件属于项目级的，需要先构建...
--荣锋亮
20. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮少了这两个maven插件...
--messliao
21. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 预计之后官方会提供完整的maven依赖吗？官方已经提供了，我前段时间也说明了，可以直接构建了，这种方法是如果实在没提供，但是希望自己构建的方法...
--荣锋亮
22. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
预计之后官方会提供完整的maven依赖吗？
--messliao
23. Re:graylog MessageOutput 简单说明
@995- 你要导啥用户...
--荣锋亮
24. Re:graylog MessageOutput 简单说明
亮哥，graylog外部账户倒入是怎么处理的？
--995-
25. Re:JFrog Artifactory CE c&&c++ 包管理工具
@踏云我刚试了一些最新版本，看着没啥问题，可能是windows docker 的问题，我使用的是linux 系统这个可以参考下，实在不行找下jfrog 官方的issue...
--荣锋亮
26. Re:JFrog Artifactory CE c&&c++ 包管理工具
你好，请教个事情。【前置处理】：我是在windows上安装的Docker Desktop。【安装部署】：安装你的这条命令 docker run -d -p 8081:8081 docker.b...
--踏云
27. Re:sbom-tool 微软提供sbom工具
哈哈，谢谢你还记得我，npm、java的我都已经解决了，在集成 go和 Python 的时候发现生成的 sbom没有许可证信息，所以准备换sbom-tool试试，看到你这个文章所以想问下你转换后的情况...
--lunzi_fly
28. Re:sbom-tool 微软提供sbom工具
@lunzi_fly 我记得你以前问过，可以参考这个，合适就是把ci/cd 集成好...
--荣锋亮
29. Re:sbom-tool 微软提供sbom工具
请问博主，有试过转换后的 sbom.json使用dependency分析后，组件，漏洞、许可证信息全吗？
--lunzi_fly
30. Re:angie vod_module 模块的问题
点个赞
--995-
31. Re:sbom +dependencytrack 进行软件组件安全性分析
@lunzi_fly 你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不里边已经写了，而且参考资料里边也有工具的资料...
--荣锋亮
32. Re:sbom +dependencytrack 进行软件组件安全性分析
你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不
--lunzi_fly
33. Re:chaos-engineering 的一些开源工具
litmus、chaos blade这些也都开源了，还有个chaos mesh不清楚是否开源
--酒冽
34. Re:streamsets geoip 使用
@荣锋亮我也不太清楚是不是ip库的问题，就是从网上随便下载的一个ip库。您的微信多少，怎么添加您呢...
--一起随缘
35. Re:streamsets geoip 使用
@一起随缘博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢应该是可以到城市的，你看看是不是选择的ip库问题，streamsets现在不开源了，玩的少了，如果还有问题可以微信私聊...
--荣锋亮
36. Re:streamsets geoip 使用
博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢
--一起随缘
37. Re:cups+ippserver+cups4j 进行ipp 打印测试
而且这个也有可能是cups server字符编码配置有问题，可以尝试修改下cupsd.conf
--荣锋亮
38. Re:cups+ippserver+cups4j 进行ipp 打印测试
@李秀才后边没测了，周边没打印机，当时是临时在一个环境测试的，当时怀疑可能是client 包装处理的问题，你使用什么类型的打印机，还有有没有进行调试下，或者你可以跟下cups client看看它内部...
--荣锋亮
39. Re:cups+ippserver+cups4j 进行ipp 打印测试
兄弟，你后面打印中文乱码的问题解决了吗？我也碰到这个问题了。
--李秀才
40. Re:kestra 试用体验
感谢分享，看起来有点意思
--早呀早