摘要:
参考:spark连接外部Hive应用 如果想连接外部已经部署好的Hive,需要通过以下几个步骤。 1) 将Hive中的hive-site.xml拷贝或者软连接到Spark安装目录下的conf目录下。 2) 打开spark shell,注意带上访问Hive元数据库的JDBC客户端(找到连接hive元m 阅读全文
摘要:
摘自阿里大数据之路 什么是数据漂移 通常我们把从源系统同步进入数仓的第一层数据称为 ODS或者staging层数据,接入层 。 数据漂移是接入层数据的一个顽疾。 数据漂移定义:接入层ODS表同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。 数据漂移出现的原因 通常落地数 阅读全文