随笔分类 -  Impala

摘要:impala从3.1版本开始支持orc格式查询,不过是experimental 开启方法,在cdh的impala配置中添加 --enable_orc_scanner=true 然后重启impala集群。 官方文档: https://docs.cloudera.com/documentation/en 阅读全文
posted @ 2022-05-20 17:18 匠人先生 阅读(510) 评论(0) 推荐(0) 编辑
摘要:impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 阅读全文
posted @ 2020-08-10 18:26 匠人先生 阅读(3664) 评论(0) 推荐(0) 编辑
摘要:parquet文件中的时间字段,在hive和spark-sql中读取正常,在impala中读取会偏移8个小时(少),经测试结果如下: 一 不修改impala配置 1 由spark或hive写入parquet spark和hive读取正常 impala读取偏移8小时(少),需要手工偏移 from_un 阅读全文
posted @ 2020-06-08 20:44 匠人先生 阅读(1214) 评论(0) 推荐(0) 编辑
摘要:impala在一个select中执行多个count distinct时会报错,比如执行 select key, count(distinct column_a), count(distinct column_b) from test_table group by key 会报错 Query subm 阅读全文
posted @ 2019-09-28 01:13 匠人先生 阅读(4969) 评论(0) 推荐(0) 编辑
摘要:从impala中创建kudu表之后,如果想从hive或spark sql直接读取,会报错: Caused by: java.lang.ClassNotFoundException: com.cloudera.kudu.hive.KuduStorageHandler at java.net.URLCl 阅读全文
posted @ 2019-05-22 18:06 匠人先生 阅读(5357) 评论(0) 推荐(1) 编辑
摘要:1)将coordinator和executor角色分离 By default, each host in the cluster that runs the impalad daemon can act as the coordinator for an Impala query, execute 阅读全文
posted @ 2019-04-20 18:28 匠人先生 阅读(683) 评论(0) 推荐(0) 编辑
摘要:oozie中通过shell执行impala,脚本如下: $ cat test_impala.sh #!/bin/sh /usr/bin/kinit -kt /tmp/impala.keytab impala/server04 /usr/bin/impala-shell -i server04:210 阅读全文
posted @ 2019-04-01 17:46 匠人先生 阅读(1260) 评论(0) 推荐(0) 编辑
摘要:tpc 官方:http://www.tpc.org/ 一 简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminat 阅读全文
posted @ 2019-03-05 22:55 匠人先生 阅读(6470) 评论(1) 推荐(1) 编辑
摘要:1 hive # kadmin.local -q 'ktadd -k /tmp/hive3.keytab -norandkey hive/server03@TEST.COM'# kinit -kt /tmp/hive3.keytab hive/server03@TEST.COM# klist # b 阅读全文
posted @ 2019-03-02 15:02 匠人先生 阅读(631) 评论(0) 推荐(0) 编辑
摘要:kerberos安装详见:https://www.cnblogs.com/barneywill/p/10394164.html 一 为CM创建用户 # kadmin.local -q "addprinc scm/admin" 名字和密码任意,后续配置中会使用 二 CM配置过程 1 启用Kerbero 阅读全文
posted @ 2019-02-19 00:35 匠人先生 阅读(3060) 评论(0) 推荐(1) 编辑
摘要:一 架构 Impala is a massively-parallel query execution engine, which runs on hundreds of machines in existing Hadoop clusters. It is decoupled from the u 阅读全文
posted @ 2019-01-30 17:38 匠人先生 阅读(1944) 评论(0) 推荐(1) 编辑
摘要:hive及其他组件(比如spark、impala等)都会依赖hive metastore,依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/, 阅读全文
posted @ 2019-01-21 18:07 匠人先生 阅读(1212) 评论(0) 推荐(1) 编辑
摘要:impala2.12 官方:http://impala.apache.org/ 一 简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloude 阅读全文
posted @ 2019-01-21 13:38 匠人先生 阅读(3190) 评论(0) 推荐(1) 编辑
摘要:kudu 1.7 官方:https://kudu.apache.org/ 一 简介 kudu有很多概念,有分布式文件系统(HDFS),有一致性算法(Zookeeper),有Table(Hive Table),有Tablet(Hive Table Partition),有列式存储(Parquet),有 阅读全文
posted @ 2019-01-21 12:45 匠人先生 阅读(3426) 评论(1) 推荐(2) 编辑
摘要:ambari2.7.3(hdp3.1) 安装 impala2.12(自动安装最新) ambari的hdp中原生不支持impala安装,下面介绍如何通过mpack方式使ambari支持impala安装: 一 安装Service 1 下载 # wget https://github.com/cas-bi 阅读全文
posted @ 2019-01-19 23:46 匠人先生 阅读(5522) 评论(4) 推荐(2) 编辑

点击右上角即可分享
微信分享提示