上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 49 下一页
摘要: 1、存储Hive版本的元数据表(VERSION) 2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) DBS:该表存储Hive中所有数据库的基本信息 字段如下: DATABASE_PARAMS:该表存储数据库的相关参数,在CREATE DATABASE时候用WITH DBPR 阅读全文
posted @ 2020-04-04 17:29 醉城、 阅读(4552) 评论(0) 推荐(2) 编辑
摘要: 如果有的字符串含有特殊字符( $ ' () )--采用替换的思路 more a.txtPARTITION(Etl_Job=cast('$JOB_NAME$' as varchar(50)),dt) 下面的步骤:a="Etl_Job=cast('\$JOB_NAME$' as varchar(50)) 阅读全文
posted @ 2020-03-30 18:05 醉城、 阅读(4590) 评论(0) 推荐(0) 编辑
摘要: 主要的命令:DistCp 官方有明确的解释:http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html 概述: DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它 阅读全文
posted @ 2020-03-26 19:32 醉城、 阅读(929) 评论(0) 推荐(0) 编辑
摘要: 遇到一个问题,优化我们的sqoop抽数,抽取的是mysql的数据,源表是个分区表,但是我们的抽取增量字段不是分区字段,表中大概有5亿条的数据,导致查询非常慢,想办法提高效率。 (1)如果 知道分区的名字 ,可以直接查询对应的分区名 select * from CM.loan_shu_api_resu 阅读全文
posted @ 2020-03-24 21:03 醉城、 阅读(591) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接 上货吧 #!/usr/bin/python # -*- coding:utf-8 -*- import os, sys import time import re import MySQLdb reload(sys) sys.setdefaultencoding("utf8") #源系 阅读全文
posted @ 2020-03-18 10:53 醉城、 阅读(2954) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 49 下一页