随笔分类 -  BigData

摘要:同时打开两个个客户端窗口启动 hive,会产生 java.sql.SQLException 异常。 SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unab 阅读全文
posted @ 2020-03-22 23:08 江湖小小白 阅读(464) 评论(0) 推荐(0) 编辑
摘要:安装 Hive:https://www.cnblogs.com/jhxxb/p/11606842.html # 启动 hive bin/hive # 查看数据库 hive> show databases; # 打开默认数据库 hive> use default; # 显示 default 数据库中的 阅读全文
posted @ 2019-10-05 13:43 江湖小小白 阅读(692) 评论(0) 推荐(0) 编辑
摘要:Hive 官网地址:https://hive.apache.org/ 文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted 下载地址:https://hive.apache.org/downloads.html  阅读全文
posted @ 2019-10-04 22:51 江湖小小白 阅读(382) 评论(0) 推荐(0) 编辑
摘要:Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序 HQL 转换 MR 流程: Hive 处理的数据存储在 阅读全文
posted @ 2019-10-04 21:42 江湖小小白 阅读(508) 评论(0) 推荐(0) 编辑
摘要:Ganglia 由 gmond、gmetad 和 gweb 三部分组成。 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用 gmond,你可以很容易收集很多系统指标数据,如 CPU、内存、磁盘、网络和活跃进程的数据等。 g 阅读全文
posted @ 2019-10-01 17:27 江湖小小白 阅读(872) 评论(0) 推荐(0) 编辑
摘要:Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。 Sink 是完全事务性的。 在从 Channel 批量删除数据之前,每个 Sink 用 Channel 启动一个事务。 批量事件一旦成功写出到存储系统或 阅读全文
posted @ 2019-10-01 00:35 江湖小小白 阅读(3641) 评论(0) 推荐(0) 编辑
摘要:先停止 HDFS 角色。 数据文件位置默认在 /dfs/ 中,这里配置 NameNode、SecondaryNameNode、DataNode 数据目录。 先在所有 HDFS 的主机上把数据拷贝过去,然后再修改 CDH 上的配置。 mkdir /cdh/dfs cp -af /dfs/* /cdh/ 阅读全文
posted @ 2019-09-29 21:30 江湖小小白 阅读(2676) 评论(0) 推荐(1) 编辑
摘要:开源实现:https://github.com/keedio/flume-ng-sql-source 这里记录的是自己手动实现。 测试中要读取的表 CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varcha 阅读全文
posted @ 2019-09-29 19:10 江湖小小白 阅读(3058) 评论(2) 推荐(1) 编辑
摘要:Source 是负责接收数据到 Flume Agent 的组件。 Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。 阅读全文
posted @ 2019-09-28 22:53 江湖小小白 阅读(3083) 评论(0) 推荐(0) 编辑
摘要:使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。 在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。 此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理 阅读全文
posted @ 2019-09-27 19:23 江湖小小白 阅读(11271) 评论(2) 推荐(0) 编辑
摘要:Flume-1 监控文件 /tmp/tomcat.log。 Flume-2 监控某一个端口的数据流。 Flume-1 与 Flume-2 将数据发送给 Flume-3,Flume-3 将最终数据打印到控制台。 一、创建配置文件 1.flume1-logger-flume.conf 配置 Source 阅读全文
posted @ 2019-09-26 23:24 江湖小小白 阅读(710) 评论(0) 推荐(0) 编辑
摘要:接上一篇:https://www.cnblogs.com/jhxxb/p/11579518.html 使用 Flume1 监控一个端口,其 sink 组中的 sink 分别对接 Flume2 和 Flume3,采用 Failover Sink Processor,实现故障转移的功能。 一、创建配置文 阅读全文
posted @ 2019-09-25 22:50 江湖小小白 阅读(824) 评论(0) 推荐(0) 编辑
摘要:使用 Flume-1 监控文件变动,Flume-1 使用 Replicating Channel Selector 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local FileSyst 阅读全文
posted @ 2019-09-25 17:06 江湖小小白 阅读(671) 评论(0) 推荐(0) 编辑
摘要:一、串联 Flume Agent 连接 这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量,flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。 阅读全文
posted @ 2019-09-24 23:43 江湖小小白 阅读(1122) 评论(0) 推荐(0) 编辑
摘要:一、Flume 事务 流程图 Put 事务流程 doPut:将批数据先写入临时缓冲区 putList doCommit:检查 channel 内存队列是否足够合并 doRollback:channel 内存队列空间不足,回滚数据 Take 事务流程 doTake:将数据取到临时缓冲区 takeLis 阅读全文
posted @ 2019-09-24 19:12 江湖小小白 阅读(1435) 评论(0) 推荐(1) 编辑
摘要:Exec source 适用于监控一个实时追加的文件,但不能保证数据不丢失;Spooldir Source 能够保证数据不丢失,且能够实现断点续传,但延迟较高,不能实时监控;而 Taildir Source 既能够实现断点续传,又可以保证数据不丢失,还能够进行实时监控。 一、创建配置文件 flume 阅读全文
posted @ 2019-09-22 19:31 江湖小小白 阅读(4284) 评论(0) 推荐(0) 编辑
摘要:使用 Flume 监听整个目录的文件,并上传至 HDFS。 一、创建配置文件 flume-dir-hdfs.conf https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source # Name the component 阅读全文
posted @ 2019-09-21 21:29 江湖小小白 阅读(1897) 评论(0) 推荐(0) 编辑
摘要:实时监控,并上传到 HDFS 中。 一、Flume 要想将数据输出到 HDFS,须持有 Hadoop 相关 jar 包 若 Hadoop 环境和 Flume 在同一节点,那么只要配置 Hadoop 环境变量即可,不需要复制相关 jar 包。 # 将相关包拷贝到 flume 的 lib 目录下 # c 阅读全文
posted @ 2019-09-21 00:40 江湖小小白 阅读(2132) 评论(0) 推荐(0) 编辑
摘要:Flume 文档:https://flume.apache.org/FlumeUserGuide.html Flume 下载:https://archive.apache.org/dist/flume/ & https://flume.apache.org/download.html JDK 下载: 阅读全文
posted @ 2019-09-20 23:19 江湖小小白 阅读(1246) 评论(0) 推荐(0) 编辑
摘要:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。 一、架构 https://flume.apache.org/FlumeUse 阅读全文
posted @ 2019-09-20 18:34 江湖小小白 阅读(319) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示