摘要: 一,Flume概述 Flume是一个分布式,可靠的,高可用的海量日志采集,聚合和传输系统。 Flume的作用:支持在日志系统中定制各类数据的发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各数据的接受方(比如文本,HDFS,Hbase等)的功能。 二,组成 1、 Flume分布式 阅读全文
posted @ 2018-10-19 20:42 薄点 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 数据:(基表:jibiao) 用户名,月份,访问次数 需求:求单月访问次数和总访问次数 实现需求的步骤: 1,先做一个表A。属性为name,month,sum(num)。插入基表的name和mon分组数据。 2,做一个视图,把和表A相同的表B和表A内关联。 3,视图AandB中amon>=bmon 阅读全文
posted @ 2018-10-19 17:07 薄点 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的 功能又不想写 UDF 的情况,脚本一般都是python写的。 Json 数据: {"movie":"1193","rate":"5","timeStamp":"978300760","uid 阅读全文
posted @ 2018-10-19 09:30 薄点 阅读(6049) 评论(0) 推荐(0) 编辑