上一页 1 ··· 5 6 7 8 9 10 11 12 下一页
摘要: 多数据源汇总案例 1) 案例需求: hadoop103上的flume-1监控文件hive.log, hadoop104上的flume-2监控某一个端口的数据流, flume-1与flume-2将数据发送给hadoop102上的flume-3,flume-3将最终数据打印到控制台 2)需求分析: 3) 阅读全文
posted @ 2020-09-08 19:29 架构艺术 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 一、单数据源多出口案例1 1)案例需求: 使用flume-1监控文件变动,flume-1将变动内容传递给flume-2,flume-2负责存储到HDFS。 同时flume-1将变动内容传递给flume-3,flume-3负责输出到local filesystem。 2)需求分析: 3)实现步骤: 0 阅读全文
posted @ 2020-09-08 18:08 架构艺术 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 实时读取目录文件到HDFS案例 1)案例需求:使用flume监听整个目录的文件 2)需求分析: 创建一个文件 [jason@hadoop102 job]$ vim flume-dir-hdfs.conf 添加如下内容 a3.sources = r3 #定义source a3.sinks = k3 # 阅读全文
posted @ 2020-09-08 15:03 架构艺术 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 1)案例需求:实时监控Hive日志,并上传到HDFS中 2)需求分析: 3)实现步骤: Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包 将commons-configuration-1.6.jar、 hadoop-auth-2.7.2.jar、 hadoop-common-2. 阅读全文
posted @ 2020-09-08 14:22 架构艺术 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 判断44444端口是否被占用 [jason@hadoop102 flume-telnet]$ sudo netstat -tunlp | grep 44444 功能描述:netstat命令是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。 阅读全文
posted @ 2020-09-08 11:36 架构艺术 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 1、Flume概念 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume很多时候和storm以及spark streaming等流式处理框架结合使用。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据 阅读全文
posted @ 2020-09-08 11:31 架构艺术 阅读(126) 评论(0) 推荐(0) 编辑
摘要: Hadoop2.4.0 重新编译 64 位本地库环境:虚拟机 VirtualBox,操作系统 64 位 CentOS 6.4 1、jdk环境 (export PATH=$JAVA_HOME/bin:$PATH $PATH放在后面)#export JAVA_HOME=/opt/jdk1.8.0_141 阅读全文
posted @ 2020-09-07 23:34 架构艺术 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 概述 只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等),Hive都可以预期读取并解析数据,提供SQL功能。SequenceFile本身的结构已经设计了内容进行压缩。所以对于SequenceFile文件的压缩,并不是先生成Sequence 阅读全文
posted @ 2020-09-07 16:43 架构艺术 阅读(1375) 评论(0) 推荐(0) 编辑
摘要: Hive 0.14.0版本,建表管理 https://blog.csdn.net/Thomson617/article/details/86153924 分桶表 分桶对应hdfs目录下的一个个文件,它是将1张大表进行hash(表行索引多分桶数hash,hash值相同的到同一个文件中去),将一份数据拆 阅读全文
posted @ 2020-09-07 16:12 架构艺术 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 创建一个使用 Snappy 压缩的 ORC 格式的表 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id strin 阅读全文
posted @ 2020-09-07 11:34 架构艺术 阅读(475) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 下一页