摘要:
引言曾经认为Hive自带的函数应该可以cover住我的日常所需,心想那些需要使用自定义函数的场景是不是太奇葩,谁知命运弄人,自己还是碰上了。需求很简单,我需要模拟Oracle中的SYS_GUID()函数,生成一个32位的字母数字随机串。开发环境:Eclipse+Maven,引入Hive0.13.1的 阅读全文
摘要:
1.1数据概念 什么是数据库 数据就是存储数据的仓库,其本质就是一个文件系统,数据按照特定的格式将数据存储起来,用户可以对数据库的数进行增加,修改,删除及查询等 什么是数据管理系统 数据管理系统:指一种操作和管理数据的大型软件,用于建立,使用和维护数据库,对数据库进行统一管理和控制,一保证数据库的安 阅读全文
摘要:
(1)生成范围内随机数 注:对于要求唯一的数据,选中该列;在数据选项中,点击删除重复值选项 (2)生成范围内的随机日期 注:在指定的日期上增加天数,最后一指定格式输出 (3) 阅读全文
摘要:
1.区别ETL作业调度工具和任务流调度工具 kettle是一个ETL工具,ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)。 kettle中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 所以他的重心是用于数据 阅读全文
摘要:
数据仓库 ETL构建企业级数据仓库流程 基本概念 业务板块:业务板块定义了数据仓库的多种命名空间,是一种系统级的概念对象。当数据的业务含义存在较大差异时,可以创建不同的业务板块,让各成员独立管理不同的业务,后续数据仓库的建设将按照业务绑卡进行划分 数据域:数据域主要用于存放统一业务板块内不同概念的指 阅读全文