随笔分类 -  Kudu+Impala

摘要:问题现象impala将数据写入kudu中入到如下的报错信息: Error in Kudu table 'impala::br_dw_dev.tbl_sys_article': Invalid argument: value too large for column 'content' (69942 阅读全文
posted @ 2021-08-19 09:42 民宿 阅读(543) 评论(0) 推荐(0) 编辑
摘要:1、show columns from emp; 2、desc emp; 3、show create table emp; 阅读全文
posted @ 2021-08-16 18:56 民宿 阅读(1031) 评论(0) 推荐(0) 编辑
摘要:Apache Kudu 支持Insert/Update/Delete 等写操作(Kudu 随机写效率也很高, 实测对一个窄表做全字段update, 其速度达到了Insert速度的88%, 而vertica的update效率比insert差很多), Kudu 表文件是列式数据格式(和Parquet格式 阅读全文
posted @ 2021-08-16 14:11 民宿 阅读(429) 评论(0) 推荐(0) 编辑
摘要:Kudu+Impala很适合数据分析, 但直接使用Insert values语句往Kudu表插入数据, 效率实在不好, 测试下来insert的速度仅为80笔/秒. 原因也是显然的, Kudu本身写入效率很高, 但是Impala并没有做这方面优化, 观察下来每次Impala语句执行的overhead都 阅读全文
posted @ 2021-08-16 14:05 民宿 阅读(418) 评论(0) 推荐(0) 编辑
摘要:查看内置的函数 hive 不需要进入什么内置数据库, 即可使用 show functions 命令列出所有内置的函数.show functions; -- hive仅显示函数的名称, 没有参数和返回值信息.desc function function_name ; -- 该命令能显示函数的具体用途. 阅读全文
posted @ 2021-08-16 14:02 民宿 阅读(905) 评论(0) 推荐(0) 编辑
摘要:理解 mem_limit 参数 set mem_limit=-1b #取消内存限制set mem_limit=1gb #设置单机内存上限为1GB, 注意是单机set mem_limit=1mb #设置单机内存上限为1MB, 注意是单机如果设置了 mem_limit, impala 将跳过Query内 阅读全文
posted @ 2021-08-16 14:01 民宿 阅读(1032) 评论(0) 推荐(0) 编辑
摘要:每个Kudu 表必须设置Pimary Key(unique), 另外Kudu表不能设置secondary index, 经过实际性能测试, 本文给出了选择Kudu主键的几个策略, 测试结果纠正了我之前的习惯认知. 简单介绍测试场景: 表中有一个unqiue字段Id, 另外还有一个日期维度字段hist 阅读全文
posted @ 2021-08-16 13:57 民宿 阅读(240) 评论(0) 推荐(0) 编辑
摘要:根据数据体量,结合集群各节点的CPU、内存、磁盘的表现,合理优化设置kudu参数,让集群飞起来~ 注: 如有雷同,纯属借鉴~ 1.Kudu后台对数据进行维护操作,如写入数据时的并发线程数,一般设置为4,官网建议的是数据目录的3倍Kudu Tablet Server Maintenance Threa 阅读全文
posted @ 2021-08-15 12:02 民宿 阅读(840) 评论(0) 推荐(0) 编辑
摘要:文章分两部分 1 基于impala的sql执行优化过程 2 Impala+kudu架构的数据仓库经验分享 第一部分,sql调优 1.老生常谈,sql调优必看执行计划,无论是hive还是impala。查看impala的执行计划可以说比较详细,分为三个粒度,分别是:explain、summary、pro 阅读全文
posted @ 2021-08-15 11:52 民宿 阅读(3594) 评论(0) 推荐(0) 编辑
摘要:文章内容来源于官网文档:http://kudu.apache.org/docs/index.html 一、kudu介绍 Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoo 阅读全文
posted @ 2021-08-15 11:41 民宿 阅读(460) 评论(0) 推荐(0) 编辑
摘要:一、impala + kudu一些优化心得用了几次impala + kudu做大数据实时计算场景,一路踏坑过来,这里分享踏坑经验 一开始需要全量导入kudu,这时候我们先用sqoop把关系数据库数据导入临时表,再用impala从临时表导入kudu目标表 由于sqoop从关系型数据直接以parquet 阅读全文
posted @ 2021-08-15 10:47 民宿 阅读(1301) 评论(0) 推荐(0) 编辑
摘要:一、下载驱动到官网下载对应版本的Impala JDBC Connector,我这里下载的是2.6.12版本,若有需要,可自行选择版本: https://www.cloudera.com/downloads/connectors/impala/jdbc/2-6-12.html 注:官网下载需要填写用户 阅读全文
posted @ 2021-08-15 09:50 民宿 阅读(2164) 评论(0) 推荐(0) 编辑
摘要:内存限制问题(Memory Limits): Soft memory limit exceeded (at 101.75% of capacity). This is attempt 12771:问题出现原因: Ku都有一个硬性和软性的内存限制。硬存储器限制是Kudu进程允许使用的最大数量,由--m 阅读全文
posted @ 2021-08-12 13:44 民宿 阅读(272) 评论(0) 推荐(0) 编辑
摘要:Kudu有着和MySQL等传统RDBMS类似的存储结构。表结构的设计对性能和稳定性的起着决定性的作用。本文把Kudu官网的表结构设计做了少许整理,结合微店自身业务做了些许的实践和测试。 宏观来看,Kudu的表结构设计有三个重要概念:列设计、主键设计和切片设计。其中列设计、主键设计和传统的数据库类似, 阅读全文
posted @ 2021-08-11 11:08 民宿 阅读(545) 评论(0) 推荐(0) 编辑
摘要:impala查询hive报错 [09/Aug/2021 00:45:10 -0700] decorators ERROR Error running check_status Traceback (most recent call last): File "/opt/cloudera/parcels 阅读全文
posted @ 2021-08-09 16:11 民宿 阅读(1708) 评论(0) 推荐(0) 编辑
摘要:一开始需要全量导入kudu,这时候我们先用sqoop把关系数据库数据导入临时表,再用impala从临时表导入kudu目标表 由于sqoop从关系型数据直接以parquet格式导入hive会有问题,这里默认hive的表都是text格式;每次导完到临时表,需要做invalidate metadata 表 阅读全文
posted @ 2021-08-06 11:54 民宿 阅读(787) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示