摘要: 通过使用 tr,您可以非常容易地实现 sed 的许多最基本功能。您可以将 tr 看作为 sed 的(极其)简化的变体:它可以用一个字符来替换另一个字符,或者可以完全除去一些字符。您也可以用它来除去重复字符。这就是所有 tr 所能够做的。 通过使用 tr,您可以非常容易地实现 sed 的许多最基本功能 阅读全文
posted @ 2017-12-19 16:34 SamaelB 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 1、将文件checkout到本地目录svn checkout path(path是服务器上的目录)例如:svn checkout svn://192.168.1.1/pro/domain简写:svn co2、往版本库中添加新的文件svn add file例如:svn add test.php(添加t 阅读全文
posted @ 2017-12-15 18:05 SamaelB 阅读(183) 评论(0) 推荐(0) 编辑
摘要: sqoop是一个用于在Hadoop和关系型数据库(Oracle,Mysql...)间数据传递的开源工具。下面以mysql、sqlserver为例,介绍使用sqoop将数据从mysql、sqlserver导入到Hadoop中(HDFS、Hive) #导入命令及参数介绍 通用参数 参数名 参数说明 -- 阅读全文
posted @ 2017-12-11 16:36 SamaelB 阅读(1132) 评论(0) 推荐(0) 编辑
摘要: 刚刚学习,做一点和shell脚本有关的笔记。 1、创建test.sh文件 touch test.sh 2、编辑sh文件 vi test.sh 3、 (1)保存退出 敲击esc, 然后输入 :wq ,回车退出 (2)不保存直接退出 4、添加可执行权限,当然默认就是可执行的。 chmod +x test 阅读全文
posted @ 2017-11-30 16:00 SamaelB 阅读(15005) 评论(0) 推荐(0) 编辑
摘要: 一、前言 公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免。 注:本文只是从sql层面介绍一下日常需要注意的点 阅读全文
posted @ 2017-11-28 15:55 SamaelB 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 事实表分成三种:事务事实表、周期快照事实表、累计快照事实表 事务事实表 官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表 周期快照事实表 如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如: 阅读全文
posted @ 2017-11-28 15:19 SamaelB 阅读(960) 评论(0) 推荐(0) 编辑
摘要: 数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层) ODS层: 为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的 阅读全文
posted @ 2017-11-28 15:01 SamaelB 阅读(6444) 评论(0) 推荐(0) 编辑
摘要: 1.业务数据——ODS——数据仓库 优点:这样做的好处是ODS的数据与数据仓库的数据高度统一;开发成本低,至少开发一次并应用到ODS即可;可见ODS是发挥承上启下的作用,调研阿里巴巴的数据部门也是这么实现的。 缺点:数据仓库需要的所有数据都需要走ODS,那么ODS的灵活性必然受到影响,甚至不利于扩展 阅读全文
posted @ 2017-11-28 14:54 SamaelB 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 基本使用 如下面这个shell脚本: #Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWOR 阅读全文
posted @ 2017-11-22 11:42 SamaelB 阅读(897) 评论(0) 推荐(0) 编辑