dremio 分布式存储以及云存储缓存简单说明

实际上以前我也简单介绍过,以下主要是对于这些有一些整体的介绍

分布式存储

paths.dist 配置属性,包含了加速,表,job 结果,上传以及下载的数据,支持包含了共享存储(nas,hdfs,以及对象存储)
对于对象存储实际上还是hdfs,只是处理上配置不一样

 
paths: {
  ...
  dist: "dremioS3:///<bucket_name>/<folder1>/<folder2>"
}
 
 

同时我们需要配置core-site.xml ,具体就是s3a 的一些参数了,具体参考官方文档
注意默认fs.s3a.buffer.dir 配置默认为/tmp/hadoop-dremio/s3a ,建议修改,然后重启服务(主要是执行节点)

云存储缓存

对于一些数据源,是支持云存储缓存的(s3,adls,azure,hdfs。。。)实际上从名字名并不是数据放到远端,而且我们将云端或者
一些延迟比较大的存储数据缓存到本地,实现数据的加速(特别类似现有的juicefs 以及alluxio)
对于这些我们可以在添加数据源的时候配置

 

 


设置缓存路径以及目录
需要注意的项

  • 数据路径,实际上就是存储缓存数据的牡蛎
  • 缓存目录,存储关联数据的挂载点,注意如果路径改变以及执行器重启缓存失效
  • 配置
    需要配置executor.cache.path.db以及executor.cache.path.fs (推荐使用ssd 以及nvme )
    一个参考配置
 
paths: {
  # the local path for dremio to store data.
  local: "/mnt/resource/dremio/data"
 
  # the distributed path Dremio data including job results, downloads, uploads, etc
  #dist: "pdfs://"${paths.local}"/pdfs"
}
 
services: {
  coordinator.enabled: false,
  coordinator.master.enabled: false,
  executor.enabled: true
  executor.cache.path.db : "/mnt/cachemanagerdisk/db",
  executor.cache.path.fs : [ "/mnt/cachemanagerdisk/dir1","/mnt/cachemanagerdisk/dir2","/mnt/cachemanagerdisk/dir3","/mnt/cachemanagerdisk/dir4"]
}
zookeeper: "lak-azure-perf:"${services.coordinator.master.embedded-zookeeper.port}
  • 反射数据缓存
    可以通过dist.caching.enabled以及reflection.cloud.cache.enabled解决,注意需要重启集群
  • 最佳实践
    使用ssd 以及nvme 为了更好的性能,对于不常用的会进行清理,对于cache 添加额外的存储
    如果需要移除本地数据的缓存:数据源移除cache 配置,删除缓存管理数据以及文件夹

说明

分布式存储解决的是数据共享的问题,云储存缓存解决的是对于延迟较大存储的加速,实现数据本地化,加速查询处理

参考资料

https://docs.dremio.com/software/deployment/dist-store-config/
https://docs.dremio.com/software/deployment/cloud-cache-config/

posted on   荣锋亮  阅读(393)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2021-05-06 cubestore 添加auth 认证
2021-05-06 基于s3 扩展cubestore
2020-05-06 stimulusjs 由Ruby on Rails 作者创建的web框架
2020-05-06 adonisjs 类似php laravel 的mvc 框架
2020-05-06 html-query-plan一个不错的sql server查询计划展示web 组件
2017-05-06 Spring boot admin 使用
2017-05-06 Prometheus 简介

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示