醉城、 - 博客园

2020年4月4日

摘要： 1、存储Hive版本的元数据表(VERSION) 2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) DBS：该表存储Hive中所有数据库的基本信息字段如下: DATABASE_PARAMS：该表存储数据库的相关参数，在CREATE DATABASE时候用WITH DBPR 阅读全文

posted @ 2020-04-04 17:29 醉城、阅读(4552) 评论(0) 推荐(2) 编辑

2020年3月30日

sed 替换含有特殊字符串

摘要：如果有的字符串含有特殊字符( $ ' () )--采用替换的思路 more a.txtPARTITION(Etl_Job=cast('$JOB_NAME$' as varchar(50)),dt) 下面的步骤：a="Etl_Job=cast('\$JOB_NAME$' as varchar(50)) 阅读全文

posted @ 2020-03-30 18:05 醉城、阅读(4590) 评论(0) 推荐(0) 编辑

2020年3月26日

Hadoop的数据迁移

摘要：主要的命令：DistCp 官方有明确的解释：http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html 概述： DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它阅读全文

posted @ 2020-03-26 19:32 醉城、阅读(929) 评论(0) 推荐(0) 编辑

2020年3月24日

Oracle查询Interval partition分区表内数据

摘要：遇到一个问题，优化我们的sqoop抽数，抽取的是mysql的数据，源表是个分区表，但是我们的抽取增量字段不是分区字段，表中大概有5亿条的数据，导致查询非常慢，想办法提高效率。（1）如果知道分区的名字，可以直接查询对应的分区名 select * from CM.loan_shu_api_resu 阅读全文

posted @ 2020-03-24 21:03 醉城、阅读(591) 评论(0) 推荐(0) 编辑

2020年3月18日

python连接mysql

摘要：不多说，直接上货吧 #!/usr/bin/python # -*- coding:utf-8 -*- import os, sys import time import re import MySQLdb reload(sys) sys.setdefaultencoding("utf8") #源系阅读全文

posted @ 2020-03-18 10:53 醉城、阅读(2954) 评论(0) 推荐(0) 编辑

希言自然

常存虚怀若谷，常保求知若渴