摘要: 1、元数据的概念 传统定义上,元数据Metadata是关于数据的数据(data about data),在数据仓库中,元数据是描述数据仓库内数据的结构以及建立方法的数据,按其用途分为技术元数据和业务元数据。 元数据指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关 阅读全文
posted @ 2017-10-20 17:53 hongma 阅读(3804) 评论(0) 推荐(0) 编辑
摘要: sparksql结合hive最佳实践一、Spark SQL快速上手1、Spark SQL是什么Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。2、Spark SQL的基础数据模型 Data 阅读全文
posted @ 2017-10-20 16:55 hongma 阅读(4065) 评论(0) 推荐(1) 编辑
摘要: hadoop 2.6.1 hive 2.1.1 hbase 1.2.6 spark 2.1.1 redis 3.2. 阅读全文
posted @ 2017-10-20 16:54 hongma 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 一、Docker Hello World Docker 允许你在容器内运行应用程序, 使用 docker run 命令来在容器内运行一个应用程序。 输出Hello world 各个参数解析: docker: Docker 的二进制执行文件。 run:与前面的 docker 组合来运行一个容器。 ub 阅读全文
posted @ 2017-10-20 16:54 hongma 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。 一、Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即: 阅读全文
posted @ 2017-10-20 16:52 hongma 阅读(18290) 评论(1) 推荐(2) 编辑
摘要: 参考: http://www.csdn.net/article/2015-01-13/2823530 http://www.cnblogs.com/smartloli/p/4288493.html http://www.cnblogs.com/smartloli/p/4356660.html htt 阅读全文
posted @ 2017-10-20 16:50 hongma 阅读(396) 评论(0) 推荐(0) 编辑