摘要: 传统数仓传统数仓有几个特点: 数据具有历史性 基于文件存储 以表为形态,自带元数据存储(比如Hive) 在数仓的数据是其他数据的拷贝或者拷贝的加工 传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以我们需要把MySQL等数据源的数据同步到数仓,才能进行进一步处理,另外传统数仓更关 阅读全文
posted @ 2020-07-07 18:04 大羽治不了水 阅读(510) 评论(0) 推荐(0) 编辑
摘要: python 2.7.15 安装 pip install pymysql pip install pyspark constant里面是一些数据库连接串信息 1 # coding: utf-8 2 # -*- coding:utf-8 -*- 3 import sys 4 import argpar 阅读全文
posted @ 2020-07-07 16:13 大羽治不了水 阅读(800) 评论(0) 推荐(1) 编辑