Impala - 随笔分类 - 匠人先生

大叔经验分享（136）impala支持orc查询

摘要：impala从3.1版本开始支持orc格式查询，不过是experimental 开启方法，在cdh的impala配置中添加 --enable_orc_scanner=true 然后重启impala集群。官方文档： https://docs.cloudera.com/documentation/en 阅读全文

posted @ 2022-05-20 17:18 匠人先生阅读(541) 评论(0) 推荐(0)

大叔问题定位分享（38）impala报错内存不足

摘要：impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 阅读全文

posted @ 2020-08-10 18:26 匠人先生阅读(3749) 评论(0) 推荐(0)

大叔经验分享（106）Impala读取parquet时间字段时区偏移问题

摘要：parquet文件中的时间字段，在hive和spark-sql中读取正常，在impala中读取会偏移8个小时（少），经测试结果如下：一不修改impala配置 1 由spark或hive写入parquet spark和hive读取正常 impala读取偏移8小时（少），需要手工偏移 from_un 阅读全文

posted @ 2020-06-08 20:44 匠人先生阅读(1287) 评论(0) 推荐(0)

大叔经验分享（83）impala执行多个select distinct

摘要：impala在一个select中执行多个count distinct时会报错，比如执行 select key, count(distinct column_a), count(distinct column_b) from test_table group by key 会报错 Query subm 阅读全文

posted @ 2019-09-28 01:13 匠人先生阅读(5033) 评论(0) 推荐(0)

大叔经验分享（60）hive和spark读取kudu表

摘要：从impala中创建kudu表之后，如果想从hive或spark sql直接读取，会报错： Caused by: java.lang.ClassNotFoundException: com.cloudera.kudu.hive.KuduStorageHandler at java.net.URLCl 阅读全文

posted @ 2019-05-22 18:06 匠人先生阅读(5430) 评论(0) 推荐(1)

大数据基础之Impala（3）部分调优

摘要：1）将coordinator和executor角色分离 By default, each host in the cluster that runs the impalad daemon can act as the coordinator for an Impala query, execute 阅读全文

posted @ 2019-04-20 18:28 匠人先生阅读(700) 评论(0) 推荐(0)

大叔经验分享（48）oozie中通过shell执行impala

摘要：oozie中通过shell执行impala，脚本如下： $ cat test_impala.sh #!/bin/sh /usr/bin/kinit -kt /tmp/impala.keytab impala/server04 /usr/bin/impala-shell -i server04:210 阅读全文

posted @ 2019-04-01 17:46 匠人先生阅读(1275) 评论(0) 推荐(0)

大数据基础之Benchmark（2）TPC-DS

摘要：tpc 官方：http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminat 阅读全文

posted @ 2019-03-05 22:55 匠人先生阅读(6668) 评论(1) 推荐(1)

大数据基础之Kerberos（2）hive impala hdfs访问

摘要：1 hive # kadmin.local -q 'ktadd -k /tmp/hive3.keytab -norandkey hive/server03@TEST.COM'# kinit -kt /tmp/hive3.keytab hive/server03@TEST.COM# klist # b 阅读全文

posted @ 2019-03-02 15:02 匠人先生阅读(648) 评论(0) 推荐(0)

大叔经验分享（30）CM开启kerberos

摘要：kerberos安装详见：https://www.cnblogs.com/barneywill/p/10394164.html 一为CM创建用户 # kadmin.local -q "addprinc scm/admin" 名字和密码任意，后续配置中会使用二 CM配置过程 1 启用Kerbero 阅读全文

posted @ 2019-02-19 00:35 匠人先生阅读(3128) 评论(0) 推荐(1)

大数据基础之Impala（2）实现细节

摘要：一架构 Impala is a massively-parallel query execution engine, which runs on hundreds of machines in existing Hadoop clusters. It is decoupled from the u 阅读全文

posted @ 2019-01-30 17:38 匠人先生阅读(2063) 评论(0) 推荐(1)

大叔经验分享（24）hive metastore的几种部署方式

摘要：hive及其他组件（比如spark、impala等）都会依赖hive metastore，依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/，阅读全文

posted @ 2019-01-21 18:07 匠人先生阅读(1272) 评论(0) 推荐(1)

大数据基础之Impala（1）简介、安装、使用

摘要：impala2.12 官方：http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloude 阅读全文

posted @ 2019-01-21 13:38 匠人先生阅读(3304) 评论(0) 推荐(1)

大数据基础之Kudu（1）简介、安装、使用

摘要：kudu 1.7 官方：https://kudu.apache.org/ 一简介 kudu有很多概念，有分布式文件系统（HDFS），有一致性算法（Zookeeper），有Table（Hive Table），有Tablet（Hive Table Partition），有列式存储（Parquet），有阅读全文

posted @ 2019-01-21 12:45 匠人先生阅读(3510) 评论(1) 推荐(2)

大数据基础之Ambari（4）通过Ambari部署Impala

摘要：ambari2.7.3（hdp3.1）安装 impala2.12（自动安装最新） ambari的hdp中原生不支持impala安装，下面介绍如何通过mpack方式使ambari支持impala安装：一安装Service 1 下载 # wget https://github.com/cas-bi 阅读全文

posted @ 2019-01-19 23:46 匠人先生阅读(5617) 评论(4) 推荐(2)

Thinking in BigData

匠人先生

随笔分类 - Impala

公告