江湖小小白

2019年10月4日

摘要： Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序 HQL 转换 MR 流程： Hive 处理的数据存储在阅读全文

posted @ 2019-10-04 21:42 江湖小小白阅读(477) 评论(0) 推荐(0) 编辑

2019年10月3日

Java 基于 Instrument 的 Agent

摘要： Agent 为 JVMTI 的客户端。这里记录的是基于Java Instrument 的 Agent 实现，还有直接基于 JVMTI 的 Agent 实现。在 JDK1.5 以后，我们可以使用 Agent 技术构建一个独立于应用程序的代理程序，用来协助监测、运行甚至替换其他 JVM 上的程序。使阅读全文

posted @ 2019-10-03 01:49 江湖小小白阅读(2715) 评论(0) 推荐(1) 编辑

2019年10月1日

Linux 时间同步 Chrony

摘要： chrony 是网络时间协议（NTP）的通用实现。 chrony 包含两个程序：chronyd 是一个可以在启动时启动的守护程序。chronyc 是一个命令行界面程序，用于监视 chronyd 的性能并在运行时更改各种操作参数。与其它时间同步软件的对比：https://chrony-project 阅读全文

posted @ 2019-10-01 23:17 江湖小小白阅读(38326) 评论(0) 推荐(2) 编辑

Flume 数据流监控 Ganglia

摘要： Ganglia 由 gmond、gmetad 和 gweb 三部分组成。 gmond（Ganglia Monitoring Daemon）是一种轻量级服务，安装在每台需要收集指标数据的节点主机上。使用 gmond，你可以很容易收集很多系统指标数据，如 CPU、内存、磁盘、网络和活跃进程的数据等。 g 阅读全文

posted @ 2019-10-01 17:27 江湖小小白阅读(864) 评论(0) 推荐(0) 编辑

Java ZipUtil

摘要： Zip 压缩工具类，不支持压缩空文件夹。简单版 import java.io.FileOutputStream; import java.io.IOException; import java.nio.file.*; import java.nio.file.attribute.BasicFile 阅读全文

posted @ 2019-10-01 14:37 江湖小小白阅读(1277) 评论(2) 推荐(0) 编辑

Flume 自定义 Sink

摘要： Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。 Sink 是完全事务性的。在从 Channel 批量删除数据之前，每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或阅读全文

posted @ 2019-10-01 00:35 江湖小小白阅读(3598) 评论(0) 推荐(0) 编辑

2019年9月29日

CDH 更换 HDFS 数据目录

摘要：先停止 HDFS 角色。数据文件位置默认在 /dfs/ 中，这里配置 NameNode、SecondaryNameNode、DataNode 数据目录。先在所有 HDFS 的主机上把数据拷贝过去，然后再修改 CDH 上的配置。 mkdir /cdh/dfs cp -af /dfs/* /cdh/ 阅读全文

posted @ 2019-09-29 21:30 江湖小小白阅读(2623) 评论(0) 推荐(1) 编辑

Flume 自定义 Source 读取 MySQL 数据

摘要：开源实现：https://github.com/keedio/flume-ng-sql-source 这里记录的是自己手动实现。测试中要读取的表 CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varcha 阅读全文

posted @ 2019-09-29 19:10 江湖小小白阅读(3025) 评论(2) 推荐(1) 编辑

2019年9月28日

Flume 自定义 Source

摘要： Source 是负责接收数据到 Flume Agent 的组件。 Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。阅读全文

posted @ 2019-09-28 22:53 江湖小小白阅读(3055) 评论(0) 推荐(0) 编辑

2019年9月27日

Flume 自定义 Interceptor（拦截器）

摘要：使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构，Multiplexing的原理阅读全文

posted @ 2019-09-27 19:23 江湖小小白阅读(11126) 评论(2) 推荐(0) 编辑

2019年9月26日

Flume 日志聚合

摘要： Flume-1 监控文件 /tmp/tomcat.log。 Flume-2 监控某一个端口的数据流。 Flume-1 与 Flume-2 将数据发送给 Flume-3，Flume-3 将最终数据打印到控制台。一、创建配置文件 1.flume1-logger-flume.conf 配置 Source 阅读全文

posted @ 2019-09-26 23:24 江湖小小白阅读(702) 评论(0) 推荐(0) 编辑

MySQL Index 和 Optimization

摘要：索引可以减少磁盘 IO 次数，索引是数据结构 InnoDB 不支持 hash 索引，但有自适应 hash 索引(show variables like '%innodb_adaptive_hash_index%')，直接定位数据页一、索引结构 B-Tree B+Tree R-Tree 二、常见索引阅读全文

posted @ 2019-09-26 14:13 江湖小小白阅读(336) 评论(0) 推荐(0) 编辑

2019年9月25日

Flume Failover Sink Processor 故障转移与 Load balancing Sink 负载均衡

摘要：接上一篇：https://www.cnblogs.com/jhxxb/p/11579518.html 使用 Flume1 监控一个端口，其 sink 组中的 sink 分别对接 Flume2 和 Flume3，采用 Failover Sink Processor，实现故障转移的功能。一、创建配置文阅读全文

posted @ 2019-09-25 22:50 江湖小小白阅读(798) 评论(0) 推荐(0) 编辑

Flume Replicating Channel Selector 单数据源多出口

摘要：使用 Flume-1 监控文件变动，Flume-1 使用 Replicating Channel Selector 将变动内容传递给 Flume-2，Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3，Flume-3 负责输出到 Local FileSyst 阅读全文

posted @ 2019-09-25 17:06 江湖小小白阅读(653) 评论(0) 推荐(0) 编辑

2019年9月24日

Flume 几种拓扑结构

摘要：一、串联 Flume Agent 连接这种模式是将多个 flume 顺序连接起来了，从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量，flume 数量过多不仅会影响传输速率，而且一旦传输过程中某个节点 flume 宕机，会影响整个传输系统。阅读全文

posted @ 2019-09-24 23:43 江湖小小白阅读(1109) 评论(0) 推荐(0) 编辑

公告