随笔分类 -  impala

摘要:突然遇到一个想追溯表的创建信息 查询表结构的详细信息: desc formatted tablename 查询表修改的时间 describe extended table; transient_lastDdlTime=1623910753 show TBLPROPERTIES table; tran 阅读全文
posted @ 2021-11-19 17:15 醉城、 阅读(576) 评论(0) 推荐(0) 编辑
摘要:impala 往一个表里回插数据时,出现的现象: Row of size 3.05MB could not be materialized in plan node with id 5.increase the max_row_size query option (currently 512.00K 阅读全文
posted @ 2021-01-22 14:20 醉城、 阅读(1417) 评论(0) 推荐(0) 编辑
摘要:1.导出指定表 #!/usr/bin/env python #-*- coding:utf8 -*- # 从mysql中提取hive建表语句-指定的表 import os,sys import fileinput import datetime import mysql.connector relo 阅读全文
posted @ 2020-09-15 11:12 醉城、 阅读(1622) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/python # -*- coding:utf-8 -*- ''' 功能: 1. 取消内存占用超过一定值 执行时间超过一定值 查杀某些用户的任务 排除某些查询ID 用例: #取消查询QUERY,用户是zhagnwei 超过时间:10s 内存超过1E7 python cancle 阅读全文
posted @ 2020-09-01 10:02 醉城、 阅读(733) 评论(0) 推荐(0) 编辑
摘要:impala中拼接字符串的函数: concat(string a, string b...) Purpose: Returns a single string representing all the argument values joined together. Return type: str 阅读全文
posted @ 2020-06-17 18:37 醉城、 阅读(8265) 评论(0) 推荐(0) 编辑
摘要:背景:今天给生产的一张大表(120多亿的数据量)新加了一个字段:ALTER TABLE TABLENAME ADD COLUMNS (ENTRY_NAME VARCHAR(200) COMMENT'进件渠道名称');在针对这张表运行脚本的时候,在最后,COMPUTE INCREMENTAL STAT 阅读全文
posted @ 2020-06-02 18:30 醉城、 阅读(809) 评论(0) 推荐(0) 编辑
摘要:ABS() 取数据的绝对值 select abs(-12) CEIL() 返回大于或等于参数的最小整数。 ceil(double a), ceil(decimal(p,s) a), ceiling(double a), ceiling(decimal(p,s) a), dceil(double a) 阅读全文
posted @ 2020-05-26 17:34 醉城、 阅读(1526) 评论(0) 推荐(0) 编辑
摘要:1.为数据存储选择合适的文件格式(如:Parquet) 通常对于大数据量来说,Parquet文件格式是最佳的 2. 防止入库时产生大量的小文件(insert ... values会产生大量小文件,应该避免使用) 在impala外生成数据时,最好是text格式或者Avro,这样你就可以逐行的构建文件, 阅读全文
posted @ 2020-05-25 17:19 醉城、 阅读(2402) 评论(0) 推荐(0) 编辑
摘要:COMPUTE STATS主要作用: 收集有关表中数据的容量和分布以及所有相关列和分区的信息。这些信息存储在metastore数据库中,Impala使用这些信息来帮助优化查询。例如,如果Impala可以确定一个表是大是小,或者有很多或很少不同的值,它就可以为一个连接查询或插入操作适当地组织并行化工作 阅读全文
posted @ 2020-01-08 12:01 醉城、 阅读(6226) 评论(0) 推荐(1) 编辑
摘要:1、原表查询:select count(*) from temp.table01 where stat_dt = '2024-01-09' ; 2、查看数据文件hadoop fs -ls /user/hive/warehouse/temp.db/table01/stat_dt=2024-01-09F 阅读全文
posted @ 2019-12-11 13:49 醉城、 阅读(1111) 评论(0) 推荐(0) 编辑
摘要:项目中用python来链接impala数据库最常见,一个简单的链接,获取结果。 #!/usr/bin/python # -*- coding:utf-8 -*- from impala.dbapi import connect import sys reload(sys) sys.setdefaul 阅读全文
posted @ 2019-11-25 14:33 醉城、 阅读(5504) 评论(0) 推荐(0) 编辑
摘要:这个错误困扰了好久,因为集群有多台,暂放到其他几台机器上执行了SQL操作,一直在找解决方法,无意间得到真传,喜出望外啊 报错信息: Traceback (most recent call last): File "b.py", line 3, in <module> cur=conn.cursor( 阅读全文
posted @ 2019-11-20 17:58 醉城、 阅读(1304) 评论(0) 推荐(0) 编辑
摘要:#把时间转化成时间戳select cast('1966-07-30' as timestamp);select cast('1985-09-25 17:45:30.005' as timestamp);select cast('08:30:00' as timestamp);#取月份 无效月份为nu 阅读全文
posted @ 2019-11-20 10:25 醉城、 阅读(6363) 评论(0) 推荐(0) 编辑
摘要:1.底层是testfile格式,上层为parquet存储,相比parquet查询性能较好。 2.对于脚本中使用的临时表,如果存在以下情况需要进行统计表信息 1)本身数据量较大 2)需要和大量数据表进行关联 3)本身被较多次使用 3.对于重复使用计算的SQL,需要事前计算好数据,放到临时表中使用,节省 阅读全文
posted @ 2019-11-18 18:04 醉城、 阅读(2028) 评论(0) 推荐(0) 编辑
摘要:本博文介绍三种方法,推荐使用第三种,前两种都是尝试。 方法一: 现在的导出还是有缺陷的,导出的文件中还是存在其他不必要的信息 #!/bin/bash ##获取数据库 databases=$(hive -e "show databases; exit;") for database in $datab 阅读全文
posted @ 2019-10-30 15:13 醉城、 阅读(5865) 评论(0) 推荐(0) 编辑
摘要:1.错误信息 (1366, "Incorrect string value: '\\xE6\\x8E\\x88\\xE6\\x9D\\x83...' for column 'search' at row 1") (1)查看元数据hive库中的编码格式 (2)更改hive数据库字符集 alter da 阅读全文
posted @ 2019-10-25 13:50 醉城、 阅读(1790) 评论(0) 推荐(0) 编辑
摘要:1、修改字段中文名称 ALTER TABLE tablename CHANGE doc_rev_ind doc_rev_ind varchar(40) comment '收取要求' 2、增加一列 ALTER TABLE tablename add columns (IS_AUTH VARCHAR(8 阅读全文
posted @ 2019-09-30 17:30 醉城、 阅读(8386) 评论(0) 推荐(0) 编辑
摘要:首先了解一下:Impala如何融入Hadoop生态系统 Impala使用了Hadoop生态系统中许多熟悉的组件。Impala可以作为消费者和生产者与其他Hadoop组件交换数据,因此它可以以灵活的方式适合您的ETL和ELT管道。 How Impala Works with HiveImpala的一个 阅读全文
posted @ 2019-08-26 18:41 醉城、 阅读(2535) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示