随笔分类 -  大数据

nessie 安装&&简单试用
摘要:以下是关于nessie基于容器的简单运行试用 环境准备 docker 运行 docker run -p 19120:19120 projectnessie/nessie 安装cli pip install pynessie 试用 创建分支 nessie create-branch my_branch 阅读全文

posted @ 2020-10-08 22:28 荣锋亮 阅读(506) 评论(0) 推荐(0) 编辑

nessie 类似git 管理数据湖
摘要:nessie 是由dremio团队开源的一个类似git 管理数据湖的系统方案 支持的特性 类似git 模式的版本管理 跨表事物(基于iceberg) 开放式的数据湖支持 参考资料 https://projectnessie.org/ https://www.dremio.com/introducin 阅读全文

posted @ 2020-10-08 15:53 荣锋亮 阅读(479) 评论(0) 推荐(0) 编辑

一些不错的开源大数据虚拟数据sql 查询引擎
摘要:以下就是一个简单的整理,核心在数据sql查询以及支持的联邦数据处理上 presto 一个通用的sql on anything 工具 apache drill 很不错的多数据源sql 查询引擎,schema on fly dremio 很不错,从官方文档看有点对标presto,但是dremio 更强大 阅读全文

posted @ 2020-10-08 09:58 荣锋亮 阅读(1460) 评论(2) 推荐(0) 编辑

What Is a Data Lake Engine?
摘要:转自:https://www.dremio.com/what-is-a-data-lake-engine/ A data lake engine is an open source software solution or cloud service that provides critical c 阅读全文

posted @ 2020-10-08 09:38 荣锋亮 阅读(241) 评论(0) 推荐(0) 编辑

drill http 存储插件试用
摘要:以下是对于http 存储插件的试用 环境准备 docker 启动drill (1.18.0 ) docker run -i --name drill-1.18.0 -p 8047:8047 -p 31010:31010 -p 31011:31011 -p 31012:31012 -t apache/ 阅读全文

posted @ 2020-10-06 21:22 荣锋亮 阅读(283) 评论(0) 推荐(0) 编辑

apache drill 1.18.0 新特性
摘要:apache drill 1.18.0 在九月6号,发布了1.18.0 版本,目前官方文档更新的不是很及时,以下大概说明下新的特性 drill metadata 功能,这个文档有写到,可以加速drill 的查询处理,同时方便bi工具 格式插件hdf5 http rest api 存储插件(很期待的功 阅读全文

posted @ 2020-10-06 20:52 荣锋亮 阅读(341) 评论(0) 推荐(0) 编辑

drill 学习 十 drill rest api
摘要:drill 提供了web ui 以及rest api 我们基于rest api 可以开发相关的业务系统(不需要依赖jdbc 驱动) 以下是简单梳理rest api 的使用(关于暴露的系统ui api 没有说明) 查询 api 地址:POST /query.json 请求提内容 { "queryTyp 阅读全文

posted @ 2020-10-06 15:04 荣锋亮 阅读(298) 评论(0) 推荐(0) 编辑

drill 学习 九 drill性能优化-整体介绍
摘要:我们可以通过分析查询计划以及profiles 识别引起性能问题的原因,在识别了引起的原因之后我们可以 尝试进行以下操作来解决: 修改查询计划选项 修改广播 join选项 在1/2 阶段聚合切换 基于hash 的内存操作约束开启以及关闭 开启查询队列 控制并行度 数据的组织以及分片的修剪 修改存储格式 阅读全文

posted @ 2020-10-06 09:16 荣锋亮 阅读(345) 评论(0) 推荐(0) 编辑

drill 学习 九 drill性能优化-Metastore
摘要:尽管drill 是schema on fly 的但是,提供scehma 以及统计信息可以加速drill 数据的处理,所以drill 1.17 添加了Metastore(基于iceberg tables) 简单介绍 模式感知执行的显着优势: 在计划时间: 更好的计划优化范围。 由于类型已知,因此可以正 阅读全文

posted @ 2020-10-05 23:19 荣锋亮 阅读(353) 评论(0) 推荐(0) 编辑

apache iceberg 用于分析庞大数据集的开放格式
摘要:apche iceberg是一个开放标准,旨在解决庞大数据集的数据处理 支持的特性 可靠性 &&性能 扫描计划速度快 高级过滤 支持acid 开放标准 确保跨语言实现的兼容性 参考资料 http://iceberg.apache.org/ 阅读全文

posted @ 2020-10-05 10:19 荣锋亮 阅读(704) 评论(0) 推荐(0) 编辑

drill 学习 八 drill information schema
摘要:drill 数据schema on fly 模式的,但是drill也提供了metadata tables 可以 方便的查看数据源(或者schema) drill 提供的schema table schema catalogs tables columns views files partitions 阅读全文

posted @ 2020-10-05 09:47 荣锋亮 阅读(280) 评论(0) 推荐(0) 编辑

drill 学习 五 配置说明- 多租户
摘要:drill 支持多用户共享同一个drillbit以及运行在独立drillbit节点的集群模式 drill可以与以下大数据工具运行在一起: mapreduce yarn hbase hive && pig spark 当我们与其他工具一起运行的时候需要关注:内存,cpu,以及磁盘的配置 当用户共享dr 阅读全文

posted @ 2020-10-05 09:22 荣锋亮 阅读(318) 评论(0) 推荐(0) 编辑

drill 学习 七 drill jdbc 连接说明
摘要:drill 官方没有提供直接的jdbc支持,但是mapr 提供了一个 下载jdbc 驱动 可以直接在drill 的安装包提取,也可以在https://apache.osuosl.org/drill/ 地址下载 ## drill jdbc 连接格式 drill jdbc 驱动支持了多种模式的连接配置: 阅读全文

posted @ 2020-10-04 17:07 荣锋亮 阅读(519) 评论(0) 推荐(0) 编辑

drill 学习 六 数据存储插件配置
摘要:具体可以参考以前整理的一个(比较简单,主要是关于常用数据库的) https://www.cnblogs.com/rongfengliang/p/6926009.html https://www.cnblogs.com/rongfengliang/p/6940485.html 说明 官方文档对于存储插 阅读全文

posted @ 2020-10-04 15:26 荣锋亮 阅读(209) 评论(0) 推荐(0) 编辑

drill 学习 五 配置说明- 安全
摘要:安全是一个比较重要的,但是在实际的开发中,大家可能关注的不是很多,drill 安全配置包含: 认证: 基于Kerberos模式,用户密码模式,签名 加密: 基于Kerberos提供数据的保密以及一致性 授权: 当前主要基于hive 授权配置模拟用户 模拟: 配置模拟用户,配置入展模拟,使用hive配 阅读全文

posted @ 2020-10-04 15:09 荣锋亮 阅读(347) 评论(0) 推荐(0) 编辑

drill 学习 五 配置说明- 内存
摘要:关于 drill 的配置主要包含了: 内存配置 多租户配置 安全配置 性能以及功能配置 查询profile以及数据配置配置 内存配置 drill 使用包含了jvm 的直接内存,堆内存,核心使用最多的是直接内存,默认是8G,但是推荐配置更好(drill 高效使用了内存) 大部分场景drill使用的是内 阅读全文

posted @ 2020-10-04 11:38 荣锋亮 阅读(426) 评论(0) 推荐(0) 编辑

drill 学习 四 drill参考案例
摘要:具体案例来自官方文档,只是简单的说明下,详细的可以参考官方文档 环境准备 运行drill 测试环境可以通过docker运行,简单方便 简单查询 查询json文件 SELECT * FROM cp.`employee.json` LIMIT 3; 查询parquet文件 SELECT * FROM d 阅读全文

posted @ 2020-10-04 11:00 荣锋亮 阅读(361) 评论(0) 推荐(0) 编辑

drill 学习 三 drill 参考架构介绍二
摘要:前边有简单介绍过drill的整体设计,以下是关于查询执行处理的简单介绍drill 包含了一个foreman 组件 foreman 主要 是进行会话以及sql 处理 sql 处理过程 参考图: 说明: 从客户端或应用程序接收查询的Drillbit成为查询的foreman,并驱动整个查询。Foreman 阅读全文

posted @ 2020-10-04 08:13 荣锋亮 阅读(393) 评论(0) 推荐(0) 编辑

drill 学习 二 drill 运行模式简单说
摘要:测试环境的运行还是比较简单的,我们核心的是jvm drill 运行模式 嵌入式模式 比较适合测试(当然基于单机运行还是可以的,注意单机生产需要修改一些配置参数,很重要) 运行命令 bin/drill-embedded 分布式集群模式 依赖zk,我们需要安装zk,zk 的集群节点需要至少3个节点(奇数 阅读全文

posted @ 2020-10-02 09:13 荣锋亮 阅读(335) 评论(0) 推荐(0) 编辑

drill 学习 一 drill 基本介绍
摘要:drill 是一个大数据sql 查询引擎(当然对于hdf也是支持写入的,我们的主要场景还是数据查询) drill 支持的数据格式 drill 支持的数据格式较多,以下是一个简单的说明 csv,tsv,psv或者其他任意用分隔符字段的数据(当然我们可以自己配置数据解析——通过存储插件配置选项) jso 阅读全文

posted @ 2020-10-02 09:02 荣锋亮 阅读(1268) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示