impala - 随笔分类 - 醉城、

Hive查询建表详细信息

摘要：突然遇到一个想追溯表的创建信息查询表结构的详细信息： desc formatted tablename 查询表修改的时间 describe extended table; transient_lastDdlTime=1623910753 show TBLPROPERTIES table; tran 阅读全文

posted @ 2021-11-19 17:15 醉城、阅读(576) 评论(0) 推荐(0) 编辑

impala 参数max_row_size

摘要：impala 往一个表里回插数据时，出现的现象： Row of size 3.05MB could not be materialized in plan node with id 5.increase the max_row_size query option (currently 512.00K 阅读全文

posted @ 2021-01-22 14:20 醉城、阅读(1417) 评论(0) 推荐(0) 编辑

导出hive的建表语句，支持单个或多个指定表/库下的所有表

摘要：1.导出指定表 #!/usr/bin/env python #-*- coding:utf8 -*- # 从mysql中提取hive建表语句-指定的表 import os,sys import fileinput import datetime import mysql.connector relo 阅读全文

posted @ 2020-09-15 11:12 醉城、阅读(1622) 评论(0) 推荐(0) 编辑

Impala任务程序cancle

摘要：#!/usr/bin/python # -*- coding:utf-8 -*- ''' 功能： 1. 取消内存占用超过一定值执行时间超过一定值查杀某些用户的任务排除某些查询ID 用例： #取消查询QUERY，用户是zhagnwei 超过时间：10s 内存超过1E7 python cancle 阅读全文

posted @ 2020-09-01 10:02 醉城、阅读(733) 评论(0) 推荐(0) 编辑

impala中的字符串拼接函数

摘要：impala中拼接字符串的函数： concat(string a, string b...) Purpose: Returns a single string representing all the argument values joined together. Return type: str 阅读全文

posted @ 2020-06-17 18:37 醉城、阅读(8265) 评论(0) 推荐(0) 编辑

COMPUTE INCREMENTAL STATS TABLENAME内存溢出

摘要：背景：今天给生产的一张大表（120多亿的数据量）新加了一个字段：ALTER TABLE TABLENAME ADD COLUMNS (ENTRY_NAME VARCHAR(200) COMMENT'进件渠道名称');在针对这张表运行脚本的时候，在最后，COMPUTE INCREMENTAL STAT 阅读全文

posted @ 2020-06-02 18:30 醉城、阅读(809) 评论(0) 推荐(0) 编辑

impala 接受和返回小数的内置函数

摘要：ABS() 取数据的绝对值 select abs(-12) CEIL() 返回大于或等于参数的最小整数。 ceil(double a), ceil(decimal(p,s) a), ceiling(double a), ceiling(decimal(p,s) a), dceil(double a) 阅读全文

posted @ 2020-05-26 17:34 醉城、阅读(1526) 评论(0) 推荐(0) 编辑

impala的一些优化

摘要：1.为数据存储选择合适的文件格式(如:Parquet) 通常对于大数据量来说，Parquet文件格式是最佳的 2. 防止入库时产生大量的小文件(insert ... values会产生大量小文件，应该避免使用) 在impala外生成数据时，最好是text格式或者Avro，这样你就可以逐行的构建文件，阅读全文

posted @ 2020-05-25 17:19 醉城、阅读(2402) 评论(0) 推荐(0) 编辑

Impala的命令COMPUTE STATS

摘要：COMPUTE STATS主要作用：收集有关表中数据的容量和分布以及所有相关列和分区的信息。这些信息存储在metastore数据库中，Impala使用这些信息来帮助优化查询。例如，如果Impala可以确定一个表是大是小，或者有很多或很少不同的值，它就可以为一个连接查询或插入操作适当地组织并行化工作阅读全文

posted @ 2020-01-08 12:01 醉城、阅读(6226) 评论(0) 推荐(1) 编辑

impala 表迁移方式 partquet数据文件移动方法

摘要：1、原表查询：select count(*) from temp.table01 where stat_dt = '2024-01-09' ; 2、查看数据文件hadoop fs -ls /user/hive/warehouse/temp.db/table01/stat_dt=2024-01-09F 阅读全文

posted @ 2019-12-11 13:49 醉城、阅读(1111) 评论(0) 推荐(0) 编辑

python 链接impala执行SQL

摘要：项目中用python来链接impala数据库最常见，一个简单的链接，获取结果。 #!/usr/bin/python # -*- coding:utf-8 -*- from impala.dbapi import connect import sys reload(sys) sys.setdefaul 阅读全文

posted @ 2019-11-25 14:33 醉城、阅读(5504) 评论(0) 推荐(0) 编辑

python连接impala时，执行SQL报错expecting list of size 2 for struct args

摘要：这个错误困扰了好久，因为集群有多台，暂放到其他几台机器上执行了SQL操作，一直在找解决方法，无意间得到真传，喜出望外啊报错信息： Traceback (most recent call last): File "b.py", line 3, in <module> cur=conn.cursor( 阅读全文

posted @ 2019-11-20 17:58 醉城、阅读(1304) 评论(0) 推荐(0) 编辑

impala 下的SQL时间函数

摘要：#把时间转化成时间戳select cast('1966-07-30' as timestamp);select cast('1985-09-25 17:45:30.005' as timestamp);select cast('08:30:00' as timestamp);#取月份无效月份为nu 阅读全文

posted @ 2019-11-20 10:25 醉城、阅读(6363) 评论(0) 推荐(0) 编辑

impala 中SQL的优化方法

摘要：1.底层是testfile格式，上层为parquet存储，相比parquet查询性能较好。 2.对于脚本中使用的临时表，如果存在以下情况需要进行统计表信息 1)本身数据量较大 2)需要和大量数据表进行关联 3)本身被较多次使用 3.对于重复使用计算的SQL，需要事前计算好数据，放到临时表中使用，节省阅读全文

posted @ 2019-11-18 18:04 醉城、阅读(2028) 评论(0) 推荐(0) 编辑

获取impala下所有的数据库建表语句

摘要：本博文介绍三种方法，推荐使用第三种，前两种都是尝试。方法一：现在的导出还是有缺陷的，导出的文件中还是存在其他不必要的信息 #!/bin/bash ##获取数据库 databases=$(hive -e "show databases; exit;") for database in $datab 阅读全文

posted @ 2019-10-30 15:13 醉城、阅读(5865) 评论(0) 推荐(0) 编辑

impala 建表时报错，不支持中文

摘要：1.错误信息 (1366, "Incorrect string value: '\\xE6\\x8E\\x88\\xE6\\x9D\\x83...' for column 'search' at row 1") （1）查看元数据hive库中的编码格式（2）更改hive数据库字符集 alter da 阅读全文

posted @ 2019-10-25 13:50 醉城、阅读(1790) 评论(0) 推荐(0) 编辑

impala 下的SQL操作

摘要：1、修改字段中文名称 ALTER TABLE tablename CHANGE doc_rev_ind doc_rev_ind varchar(40) comment '收取要求' 2、增加一列 ALTER TABLE tablename add columns (IS_AUTH VARCHAR(8 阅读全文

posted @ 2019-09-30 17:30 醉城、阅读(8386) 评论(0) 推荐(0) 编辑

Impala 中invalidate metadata和refresh

摘要：首先了解一下：Impala如何融入Hadoop生态系统 Impala使用了Hadoop生态系统中许多熟悉的组件。Impala可以作为消费者和生产者与其他Hadoop组件交换数据，因此它可以以灵活的方式适合您的ETL和ELT管道。 How Impala Works with HiveImpala的一个阅读全文

posted @ 2019-08-26 18:41 醉城、阅读(2535) 评论(0) 推荐(0) 编辑

希言自然

常存虚怀若谷，常保求知若渴

随笔分类 - impala

随笔分类 (235)

阅读排行榜

推荐排行榜