摘要:
1、存储Hive版本的元数据表(VERSION) 2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) DBS:该表存储Hive中所有数据库的基本信息 字段如下: DATABASE_PARAMS:该表存储数据库的相关参数,在CREATE DATABASE时候用WITH DBPR 阅读全文
摘要:
如果有的字符串含有特殊字符( $ ' () )--采用替换的思路 more a.txtPARTITION(Etl_Job=cast('$JOB_NAME$' as varchar(50)),dt) 下面的步骤:a="Etl_Job=cast('\$JOB_NAME$' as varchar(50)) 阅读全文
摘要:
主要的命令:DistCp 官方有明确的解释:http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html 概述: DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它 阅读全文
摘要:
遇到一个问题,优化我们的sqoop抽数,抽取的是mysql的数据,源表是个分区表,但是我们的抽取增量字段不是分区字段,表中大概有5亿条的数据,导致查询非常慢,想办法提高效率。 (1)如果 知道分区的名字 ,可以直接查询对应的分区名 select * from CM.loan_shu_api_resu 阅读全文
摘要:
不多说,直接 上货吧 #!/usr/bin/python # -*- coding:utf-8 -*- import os, sys import time import re import MySQLdb reload(sys) sys.setdefaultencoding("utf8") #源系 阅读全文