BigData - 随笔分类 - 江湖小小白

Hive 元数据配置到 MySQL

摘要：同时打开两个个客户端窗口启动 hive，会产生 java.sql.SQLException 异常。 SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unab 阅读全文

posted @ 2020-03-22 23:08 江湖小小白阅读(464) 评论(0) 推荐(0) 编辑

Hive 基本操作

摘要：安装 Hive：https://www.cnblogs.com/jhxxb/p/11606842.html # 启动 hive bin/hive # 查看数据库 hive> show databases; # 打开默认数据库 hive> use default; # 显示 default 数据库中的阅读全文

posted @ 2019-10-05 13:43 江湖小小白阅读(692) 评论(0) 推荐(0) 编辑

Hive 安装

摘要：Hive 官网地址：https://hive.apache.org/ 文档查看地址：https://cwiki.apache.org/confluence/display/Hive/GettingStarted 下载地址：https://hive.apache.org/downloads.html 阅读全文

posted @ 2019-10-04 22:51 江湖小小白阅读(382) 评论(0) 推荐(0) 编辑

Hive 概述

摘要：Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序 HQL 转换 MR 流程： Hive 处理的数据存储在阅读全文

posted @ 2019-10-04 21:42 江湖小小白阅读(508) 评论(0) 推荐(0) 编辑

Flume 数据流监控 Ganglia

摘要：Ganglia 由 gmond、gmetad 和 gweb 三部分组成。 gmond（Ganglia Monitoring Daemon）是一种轻量级服务，安装在每台需要收集指标数据的节点主机上。使用 gmond，你可以很容易收集很多系统指标数据，如 CPU、内存、磁盘、网络和活跃进程的数据等。 g 阅读全文

posted @ 2019-10-01 17:27 江湖小小白阅读(872) 评论(0) 推荐(0) 编辑

Flume 自定义 Sink

摘要：Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。 Sink 是完全事务性的。在从 Channel 批量删除数据之前，每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或阅读全文

posted @ 2019-10-01 00:35 江湖小小白阅读(3641) 评论(0) 推荐(0) 编辑

CDH 更换 HDFS 数据目录

摘要：先停止 HDFS 角色。数据文件位置默认在 /dfs/ 中，这里配置 NameNode、SecondaryNameNode、DataNode 数据目录。先在所有 HDFS 的主机上把数据拷贝过去，然后再修改 CDH 上的配置。 mkdir /cdh/dfs cp -af /dfs/* /cdh/ 阅读全文

posted @ 2019-09-29 21:30 江湖小小白阅读(2676) 评论(0) 推荐(1) 编辑

Flume 自定义 Source 读取 MySQL 数据

摘要：开源实现：https://github.com/keedio/flume-ng-sql-source 这里记录的是自己手动实现。测试中要读取的表 CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varcha 阅读全文

posted @ 2019-09-29 19:10 江湖小小白阅读(3058) 评论(2) 推荐(1) 编辑

Flume 自定义 Source

摘要：Source 是负责接收数据到 Flume Agent 的组件。 Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。阅读全文

posted @ 2019-09-28 22:53 江湖小小白阅读(3083) 评论(0) 推荐(0) 编辑

Flume 自定义 Interceptor（拦截器）

摘要：使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构，Multiplexing的原理阅读全文

posted @ 2019-09-27 19:23 江湖小小白阅读(11271) 评论(2) 推荐(0) 编辑

Flume 日志聚合

摘要：Flume-1 监控文件 /tmp/tomcat.log。 Flume-2 监控某一个端口的数据流。 Flume-1 与 Flume-2 将数据发送给 Flume-3，Flume-3 将最终数据打印到控制台。一、创建配置文件 1.flume1-logger-flume.conf 配置 Source 阅读全文

posted @ 2019-09-26 23:24 江湖小小白阅读(710) 评论(0) 推荐(0) 编辑

Flume Failover Sink Processor 故障转移与 Load balancing Sink 负载均衡

摘要：接上一篇：https://www.cnblogs.com/jhxxb/p/11579518.html 使用 Flume1 监控一个端口，其 sink 组中的 sink 分别对接 Flume2 和 Flume3，采用 Failover Sink Processor，实现故障转移的功能。一、创建配置文阅读全文

posted @ 2019-09-25 22:50 江湖小小白阅读(824) 评论(0) 推荐(0) 编辑

Flume Replicating Channel Selector 单数据源多出口

摘要：使用 Flume-1 监控文件变动，Flume-1 使用 Replicating Channel Selector 将变动内容传递给 Flume-2，Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3，Flume-3 负责输出到 Local FileSyst 阅读全文

posted @ 2019-09-25 17:06 江湖小小白阅读(671) 评论(0) 推荐(0) 编辑

Flume 几种拓扑结构

摘要：一、串联 Flume Agent 连接这种模式是将多个 flume 顺序连接起来了，从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量，flume 数量过多不仅会影响传输速率，而且一旦传输过程中某个节点 flume 宕机，会影响整个传输系统。阅读全文

posted @ 2019-09-24 23:43 江湖小小白阅读(1122) 评论(0) 推荐(0) 编辑

Flume 事务与传输流程

摘要：一、Flume 事务流程图 Put 事务流程 doPut：将批数据先写入临时缓冲区 putList doCommit：检查 channel 内存队列是否足够合并 doRollback：channel 内存队列空间不足，回滚数据 Take 事务流程 doTake：将数据取到临时缓冲区 takeLis 阅读全文

posted @ 2019-09-24 19:12 江湖小小白阅读(1435) 评论(0) 推荐(1) 编辑

Flume Taildir Source 监控目录下多个文件的追加

摘要：Exec source 适用于监控一个实时追加的文件，但不能保证数据不丢失；Spooldir Source 能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控；而 Taildir Source 既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控。一、创建配置文件 flume 阅读全文

posted @ 2019-09-22 19:31 江湖小小白阅读(4284) 评论(0) 推荐(0) 编辑

Flume Spooling Directory Source 监控目录下多个新文件

摘要：使用 Flume 监听整个目录的文件，并上传至 HDFS。一、创建配置文件 flume-dir-hdfs.conf https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source # Name the component 阅读全文

posted @ 2019-09-21 21:29 江湖小小白阅读(1897) 评论(0) 推荐(0) 编辑

Flume Exec Source 监控单个本地文件

摘要：实时监控，并上传到 HDFS 中。一、Flume 要想将数据输出到 HDFS，须持有 Hadoop 相关 jar 包若 Hadoop 环境和 Flume 在同一节点，那么只要配置 Hadoop 环境变量即可，不需要复制相关 jar 包。 # 将相关包拷贝到 flume 的 lib 目录下 # c 阅读全文

posted @ 2019-09-21 00:40 江湖小小白阅读(2132) 评论(0) 推荐(0) 编辑

Flume 安装与 NetCat UDP Source 监控端口

摘要：Flume 文档：https://flume.apache.org/FlumeUserGuide.html Flume 下载：https://archive.apache.org/dist/flume/ & https://flume.apache.org/download.html JDK 下载：阅读全文

posted @ 2019-09-20 23:19 江湖小小白阅读(1246) 评论(0) 推荐(0) 编辑

Flume 概述

摘要：Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。 Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。一、架构 https://flume.apache.org/FlumeUse 阅读全文

posted @ 2019-09-20 18:34 江湖小小白阅读(319) 评论(0) 推荐(0) 编辑

江湖小小白

随笔分类 - BigData

公告

搜索

积分与排名

随笔分类 (289)

文章分类 (4)

阅读排行榜

最新评论