随笔分类 - impala
摘要:突然遇到一个想追溯表的创建信息 查询表结构的详细信息: desc formatted tablename 查询表修改的时间 describe extended table; transient_lastDdlTime=1623910753 show TBLPROPERTIES table; tran
阅读全文
摘要:impala 往一个表里回插数据时,出现的现象: Row of size 3.05MB could not be materialized in plan node with id 5.increase the max_row_size query option (currently 512.00K
阅读全文
摘要:1.导出指定表 #!/usr/bin/env python #-*- coding:utf8 -*- # 从mysql中提取hive建表语句-指定的表 import os,sys import fileinput import datetime import mysql.connector relo
阅读全文
摘要:#!/usr/bin/python # -*- coding:utf-8 -*- ''' 功能: 1. 取消内存占用超过一定值 执行时间超过一定值 查杀某些用户的任务 排除某些查询ID 用例: #取消查询QUERY,用户是zhagnwei 超过时间:10s 内存超过1E7 python cancle
阅读全文
摘要:impala中拼接字符串的函数: concat(string a, string b...) Purpose: Returns a single string representing all the argument values joined together. Return type: str
阅读全文
摘要:背景:今天给生产的一张大表(120多亿的数据量)新加了一个字段:ALTER TABLE TABLENAME ADD COLUMNS (ENTRY_NAME VARCHAR(200) COMMENT'进件渠道名称');在针对这张表运行脚本的时候,在最后,COMPUTE INCREMENTAL STAT
阅读全文
摘要:ABS() 取数据的绝对值 select abs(-12) CEIL() 返回大于或等于参数的最小整数。 ceil(double a), ceil(decimal(p,s) a), ceiling(double a), ceiling(decimal(p,s) a), dceil(double a)
阅读全文
摘要:1.为数据存储选择合适的文件格式(如:Parquet) 通常对于大数据量来说,Parquet文件格式是最佳的 2. 防止入库时产生大量的小文件(insert ... values会产生大量小文件,应该避免使用) 在impala外生成数据时,最好是text格式或者Avro,这样你就可以逐行的构建文件,
阅读全文
摘要:COMPUTE STATS主要作用: 收集有关表中数据的容量和分布以及所有相关列和分区的信息。这些信息存储在metastore数据库中,Impala使用这些信息来帮助优化查询。例如,如果Impala可以确定一个表是大是小,或者有很多或很少不同的值,它就可以为一个连接查询或插入操作适当地组织并行化工作
阅读全文
摘要:1、原表查询:select count(*) from temp.table01 where stat_dt = '2024-01-09' ; 2、查看数据文件hadoop fs -ls /user/hive/warehouse/temp.db/table01/stat_dt=2024-01-09F
阅读全文
摘要:项目中用python来链接impala数据库最常见,一个简单的链接,获取结果。 #!/usr/bin/python # -*- coding:utf-8 -*- from impala.dbapi import connect import sys reload(sys) sys.setdefaul
阅读全文
摘要:这个错误困扰了好久,因为集群有多台,暂放到其他几台机器上执行了SQL操作,一直在找解决方法,无意间得到真传,喜出望外啊 报错信息: Traceback (most recent call last): File "b.py", line 3, in <module> cur=conn.cursor(
阅读全文
摘要:#把时间转化成时间戳select cast('1966-07-30' as timestamp);select cast('1985-09-25 17:45:30.005' as timestamp);select cast('08:30:00' as timestamp);#取月份 无效月份为nu
阅读全文
摘要:1.底层是testfile格式,上层为parquet存储,相比parquet查询性能较好。 2.对于脚本中使用的临时表,如果存在以下情况需要进行统计表信息 1)本身数据量较大 2)需要和大量数据表进行关联 3)本身被较多次使用 3.对于重复使用计算的SQL,需要事前计算好数据,放到临时表中使用,节省
阅读全文
摘要:本博文介绍三种方法,推荐使用第三种,前两种都是尝试。 方法一: 现在的导出还是有缺陷的,导出的文件中还是存在其他不必要的信息 #!/bin/bash ##获取数据库 databases=$(hive -e "show databases; exit;") for database in $datab
阅读全文
摘要:1.错误信息 (1366, "Incorrect string value: '\\xE6\\x8E\\x88\\xE6\\x9D\\x83...' for column 'search' at row 1") (1)查看元数据hive库中的编码格式 (2)更改hive数据库字符集 alter da
阅读全文
摘要:1、修改字段中文名称 ALTER TABLE tablename CHANGE doc_rev_ind doc_rev_ind varchar(40) comment '收取要求' 2、增加一列 ALTER TABLE tablename add columns (IS_AUTH VARCHAR(8
阅读全文
摘要:首先了解一下:Impala如何融入Hadoop生态系统 Impala使用了Hadoop生态系统中许多熟悉的组件。Impala可以作为消费者和生产者与其他Hadoop组件交换数据,因此它可以以灵活的方式适合您的ETL和ELT管道。 How Impala Works with HiveImpala的一个
阅读全文