Kudu+Impala - 随笔分类 - 民宿

CDH6.3.2 impala Kudu入库报错value too large for column 'xxx' (69942 bytes, maximum is 65536 bytes)

摘要：问题现象impala将数据写入kudu中入到如下的报错信息： Error in Kudu table 'impala::br_dw_dev.tbl_sys_article': Invalid argument: value too large for column 'content' (69942 阅读全文

posted @ 2021-08-19 09:42 民宿阅读(618) 评论(0) 推荐(0)

kudu查看表结构的三种方法

摘要：1、show columns from emp; 2、desc emp; 3、show create table emp; 阅读全文

posted @ 2021-08-16 18:56 民宿阅读(1098) 评论(0) 推荐(0)

Kudu系列-基础

摘要：Apache Kudu 支持Insert/Update/Delete 等写操作(Kudu 随机写效率也很高, 实测对一个窄表做全字段update, 其速度达到了Insert速度的88%, 而vertica的update效率比insert差很多), Kudu 表文件是列式数据格式(和Parquet格式阅读全文

posted @ 2021-08-16 14:11 民宿阅读(566) 评论(0) 推荐(0)

kudu系列: Java API使用和效率测试

摘要：Kudu+Impala很适合数据分析, 但直接使用Insert values语句往Kudu表插入数据, 效率实在不好, 测试下来insert的速度仅为80笔/秒. 原因也是显然的, Kudu本身写入效率很高, 但是Impala并没有做这方面优化, 观察下来每次Impala语句执行的overhead都阅读全文

posted @ 2021-08-16 14:05 民宿阅读(466) 评论(0) 推荐(0)

Impala系列: Impala常用的功能函数

摘要：查看内置的函数 hive 不需要进入什么内置数据库, 即可使用 show functions 命令列出所有内置的函数.show functions; -- hive仅显示函数的名称, 没有参数和返回值信息.desc function function_name ; -- 该命令能显示函数的具体用途. 阅读全文

posted @ 2021-08-16 14:02 民宿阅读(1006) 评论(0) 推荐(0)

Impala系列:Impala查询优化

摘要：理解 mem_limit 参数 set mem_limit=-1b #取消内存限制set mem_limit=1gb #设置单机内存上限为1GB, 注意是单机set mem_limit=1mb #设置单机内存上限为1MB, 注意是单机如果设置了 mem_limit, impala 将跳过Query内阅读全文

posted @ 2021-08-16 14:01 民宿阅读(1189) 评论(0) 推荐(0)

Kudu系列: Kudu主键选择策略

摘要：每个Kudu 表必须设置Pimary Key(unique), 另外Kudu表不能设置secondary index, 经过实际性能测试, 本文给出了选择Kudu主键的几个策略, 测试结果纠正了我之前的习惯认知. 简单介绍测试场景: 表中有一个unqiue字段Id, 另外还有一个日期维度字段hist 阅读全文

posted @ 2021-08-16 13:57 民宿阅读(265) 评论(0) 推荐(0)

kudu参数优化设置

摘要：根据数据体量，结合集群各节点的CPU、内存、磁盘的表现，合理优化设置kudu参数，让集群飞起来~ 注：如有雷同，纯属借鉴~ 1.Kudu后台对数据进行维护操作，如写入数据时的并发线程数，一般设置为4，官网建议的是数据目录的3倍Kudu Tablet Server Maintenance Threa 阅读全文

posted @ 2021-08-15 12:02 民宿阅读(960) 评论(0) 推荐(0)

impala的sql执行优化过程

摘要：文章分两部分 1 基于impala的sql执行优化过程 2 Impala+kudu架构的数据仓库经验分享第一部分，sql调优 1.老生常谈，sql调优必看执行计划，无论是hive还是impala。查看impala的执行计划可以说比较详细，分为三个粒度，分别是：explain、summary、pro 阅读全文

posted @ 2021-08-15 11:52 民宿阅读(3975) 评论(0) 推荐(0)

kudu介绍

摘要：文章内容来源于官网文档：http://kudu.apache.org/docs/index.html 一、kudu介绍 Kudu是Cloudera开源的新型列式存储系统，是Apache Hadoop生态圈的成员之一(incubating)，专门为了对快速变化的数据进行快速的分析，填补了以往Hadoo 阅读全文

posted @ 2021-08-15 11:41 民宿阅读(590) 评论(0) 推荐(0)

kudu性能优化

摘要：一、impala + kudu一些优化心得用了几次impala + kudu做大数据实时计算场景，一路踏坑过来，这里分享踏坑经验一开始需要全量导入kudu，这时候我们先用sqoop把关系数据库数据导入临时表，再用impala从临时表导入kudu目标表由于sqoop从关系型数据直接以parquet 阅读全文

posted @ 2021-08-15 10:47 民宿阅读(1445) 评论(0) 推荐(0)

Java使用JDBC连接Impala

摘要：一、下载驱动到官网下载对应版本的Impala JDBC Connector，我这里下载的是2.6.12版本，若有需要，可自行选择版本： https://www.cloudera.com/downloads/connectors/impala/jdbc/2-6-12.html 注：官网下载需要填写用户阅读全文

posted @ 2021-08-15 09:50 民宿阅读(2624) 评论(0) 推荐(0)

Soft memory limit exceeded (at 101.75% of capacity). This is attempt 12771:

摘要：内存限制问题（Memory Limits）： Soft memory limit exceeded (at 101.75% of capacity). This is attempt 12771:问题出现原因： Ku都有一个硬性和软性的内存限制。硬存储器限制是Kudu进程允许使用的最大数量，由--m 阅读全文

posted @ 2021-08-12 13:44 民宿阅读(349) 评论(0) 推荐(0)

Kudu的Schema表结构设计

摘要：Kudu有着和MySQL等传统RDBMS类似的存储结构。表结构的设计对性能和稳定性的起着决定性的作用。本文把Kudu官网的表结构设计做了少许整理，结合微店自身业务做了些许的实践和测试。宏观来看，Kudu的表结构设计有三个重要概念：列设计、主键设计和切片设计。其中列设计、主键设计和传统的数据库类似，阅读全文

posted @ 2021-08-11 11:08 民宿阅读(665) 评论(0) 推荐(0)

Failed to get minimum memory reservation of 102.00 MB on daemon

摘要：impala查询hive报错 [09/Aug/2021 00:45:10 -0700] decorators ERROR Error running check_status Traceback (most recent call last): File "/opt/cloudera/parcels 阅读全文

posted @ 2021-08-09 16:11 民宿阅读(1818) 评论(0) 推荐(0)

impala + kudu | 大数据实时计算踩坑优化指南

摘要：一开始需要全量导入kudu，这时候我们先用sqoop把关系数据库数据导入临时表，再用impala从临时表导入kudu目标表由于sqoop从关系型数据直接以parquet格式导入hive会有问题，这里默认hive的表都是text格式；每次导完到临时表，需要做invalidate metadata 表阅读全文

posted @ 2021-08-06 11:54 民宿阅读(854) 评论(0) 推荐(0)

民宿

您好，我叫李玉民，点点关注交个朋友吧

随笔分类 - Kudu+Impala

公告