摘要: 环境: python3.6.5 用的是Anaconda3-5.2.0-Windows-x86_64中的python,主要是anaconda自带了许多python库 spark2.3.0 pip install pyspark==2.3.0 安装即可 spark程序的入口点是SparkSession, 阅读全文
posted @ 2019-04-15 09:46 tianyafu 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 公司测试环境的CDH 装了spark2.3.0,正好清明节有时间来学习用python来编写spark程序 环境: python3.6.5 用的是Anaconda3-5.2.0-Windows-x86_64中的python,主要是anaconda自带了许多python库 spark2.3.0 pip 阅读全文
posted @ 2019-04-07 22:13 tianyafu 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 什么是Maven 我们构建一个项目需要用到很多第三方的类库,如写一个使用spring的Web项目就需要引入大量的jar包。一个项目Jar包的数量之多往往让我们瞠目结舌,并且Jar包之间的关系错综复杂,一个Jar包往往又会引用其他Jar包,缺少任何一个Jar包都会导致项目编译失败。 以往开发项目时,程 阅读全文
posted @ 2019-04-01 09:59 tianyafu 阅读(109) 评论(0) 推荐(0) 编辑
摘要: oracle数据库是一种关系型数据库管理系统,在数据库领域一直处于领先的地位,适合于大型项目的开发;银行、电信、电商、金融等各领域都大量使用Oracle数据库。 greenplum是一款开源的分布式数据库存储解决方案,主要关注数据仓库和BI报表及多维查询等方面。采用了shared-nothing的大 阅读全文
posted @ 2019-03-18 10:30 tianyafu 阅读(1994) 评论(0) 推荐(0) 编辑
摘要: 文章内容接上篇 三、切片 《流畅的python》的第2章中,对于切片的简单用法,只是一带而过: 在 Python 里,像列表(list)、元组(tuple)和字符串(str)这类序列类型都支持切片操作,但是实际上切片操作比人们所想象的要强大很多。 文中,主要讲了切片的3个方面: 1.为什么在pyth 阅读全文
posted @ 2019-01-06 11:13 tianyafu 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 想写一个python系列的随笔,主要是一直想要学python。当然,工作中其实也已经用到了,在我还不会的时候。python给我的感觉是用到什么就现学什么,非常的方便简单。 写这个系列并不是随便写的,主要是想通过阅读python书籍《流畅的python》,借此来提高自己的python水平吧。 学习一门 阅读全文
posted @ 2019-01-05 16:25 tianyafu 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 TxtFileReader提供了读取本地文件系统数据存储的能力。在底层实现上,TxtFileReader获取本地文件数据,并转换为DataX传输协议传递给Writer。 二、配置模版 三、使用说明 支持且仅支持读取TXT的文件,且要求TXT中shema为一张二维表。 支持类CSV格式文件, 阅读全文
posted @ 2018-12-17 13:19 tianyafu 阅读(6274) 评论(0) 推荐(0) 编辑
摘要: 最近我们公司在建立数仓,想要建立一套以Greenplum为核心的混合架构数据仓库。在这里,只想谈谈我对数据仓库的一些看法。 什么是数据仓库 面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。 为什么需要数仓 首先,我们公司是做高校大数据的。 高校的数据源形式多样,oracle 阅读全文
posted @ 2018-12-03 10:08 tianyafu 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 前言: 最近一直在做datax的增量更新,算是对datax有了一点新的认识吧。 因为公司需要以greenplum为核心来搭建自己的数仓平台,以满足业务上的多维快速查询(以前多维查询用到是kylin,但随着数据量的增加,kylin越来越难以满足我们的需求了)。 然而,greenplum的数据导入方面并 阅读全文
posted @ 2018-11-25 23:05 tianyafu 阅读(7825) 评论(0) 推荐(0) 编辑
摘要: 因为公司需要使用greenplum,而官方的datax版本在导数据到greenplum时,速度是非常慢的(严格说是datax导数据到postgresql,在导入到GP时,数据走的是master,一条一条insert的,当然是慢)。 所以,这里采用了别人开发好的支持GP 的datax版本:https: 阅读全文
posted @ 2018-11-12 11:43 tianyafu 阅读(3062) 评论(0) 推荐(0) 编辑