07 2019 档案

摘要:1. 五种主流的大数据架构 1.1 传统大数据架构 之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经 阅读全文
posted @ 2019-07-16 23:11 牧梦者 阅读(11593) 评论(0) 推荐(2) 编辑
摘要:1. 概述 UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。 Hive可以允许用户编写自己定义的函数UDF,来 阅读全文
posted @ 2019-07-16 11:46 牧梦者 阅读(13879) 评论(0) 推荐(0) 编辑
摘要:1. 概述 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下 阅读全文
posted @ 2019-07-15 16:25 牧梦者 阅读(1605) 评论(0) 推荐(0) 编辑
摘要:1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe 阅读全文
posted @ 2019-07-04 01:31 牧梦者 阅读(49064) 评论(12) 推荐(6) 编辑

点击右上角即可分享
微信分享提示