2018年4月25日

azkaban配置

摘要: azkaban: ======================== 工作流调度器 crontab: Linux自带定时任务 azkaban: 轻量级工作流调度器 linkedIn oozie: 复杂任务调度器,重量级 apache 本地log ===> MR程序数据清洗 ====> load hive ===> hql ===> h... 阅读全文

posted @ 2018-04-25 20:37 飞机耳朵 阅读(261) 评论(0) 推荐(0) 编辑

kafka和flume集成

摘要: NewProducer: 1、通过回调,手动监控数据,并进行错误处理 2、手动控制同步,异步 3、linger.ms 控制消息在buffer停留时间 4、数据类型 StringDeSerializer ShortDeSerializer IntegerDeSerializer LongDeSeria... 阅读全文

posted @ 2018-04-25 20:32 飞机耳朵 阅读(199) 评论(0) 推荐(0) 编辑

kafka新旧配置文件详解及API

摘要: 创建topic: kafka-topics.sh --create --topic test --zookeeper s102:2181 --partitions 3 --replication-factor 2 列出topic: kafka-topics.sh --list --zookeeper s102:2181 启动生产者: kafka-c... 阅读全文

posted @ 2018-04-25 20:18 飞机耳朵 阅读(337) 评论(0) 推荐(0) 编辑

kafka配置及基本命令

摘要: kafka: 分布式消息系统 p2p + ps = 消费者组 JMS: java message service p2p: peer to peer point to point ps: publish && subscribe kafka: scala + java =====... 阅读全文

posted @ 2018-04-25 19:39 飞机耳朵 阅读(1237) 评论(0) 推荐(0) 编辑

flume中自定义sink InterCeptor

摘要: SinkProcessor: ============================ FailOver: Load balancing : //负载均衡处理器 //round_robin 轮询 1-2-3-1-2-3-... //random 随机 1-3-2-3-1-... ... 阅读全文

posted @ 2018-04-25 19:04 飞机耳朵 阅读(291) 评论(0) 推荐(0) 编辑

Avro和protobuf序列化

摘要: 序列化: 进程间通信和永久存储 特点: 紧凑 快速 可扩展性 支持互操作,跨语言 java序列化: ObjectInput(Output)Stream hadoop的writable: PersonWritable //java,非跨语言 ... 阅读全文

posted @ 2018-04-25 17:38 飞机耳朵 阅读(570) 评论(0) 推荐(0) 编辑

flume的配置详解

摘要: Flume: ===================== Flume是一种分布式的、可靠的、可用的服务,可以有效地收集、聚合和移动大量的日志数据。 它有一个基于流数据的简单而灵活的体系结构。 它具有健壮性和容错能力,具有可调的可靠性机制和许多故障转移和恢复机制。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 source:源 ... 阅读全文

posted @ 2018-04-25 17:27 飞机耳朵 阅读(13996) 评论(0) 推荐(0) 编辑

sqoop数据导入导出工具

摘要: Sqoop: 关系型数据库(mysql/oracle) hadoop(hdfs/hive/hbase) 关系型数据库向hadoop组件进行数据导入导出的工具 底层使用MR技术,适用于大数据迁移 将sqoop命令编译成Mr作业,提交给hadoop mysql ===> hadoop 导入 hadoop ==> mysql ... 阅读全文

posted @ 2018-04-25 17:10 飞机耳朵 阅读(176) 评论(0) 推荐(0) 编辑

hadoop的负载监控软件ganglia

摘要: ganglia: ====================== 负载监控软件 gmond //在所有主机上监控资源占用率 gmetad //在一个节点上通过端口收集所有主机gmond信息 gweb //收集gmetad的信息并向用户展现 安装ganglia: ======================= ... 阅读全文

posted @ 2018-04-25 16:45 飞机耳朵 阅读(163) 评论(0) 推荐(0) 编辑

Hbase的jdbc工具phoenix

摘要: phoenix:凤凰 hbase的jdbc工具 数据库:schema //ns1 表:table //ns1.t1 sqlline.py s102,s103,s104 phoenix的jdbc编程: driver:org.apache.phoenix.jdbc.PhoenixDriver url: jdbc:phoenix:s102 ... 阅读全文

posted @ 2018-04-25 16:43 飞机耳朵 阅读(2801) 评论(0) 推荐(0) 编辑

导航