摘要:
一、概述 官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二、Flume Sources 描述 2.1 Avro Source 2.1.1 介绍 监听Avro端口,从Avro client streams接收event 阅读全文
摘要:
一、背景 Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步. 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需 阅读全文
摘要:
666 阅读全文
摘要:
一、概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓 阅读全文