2018年4月25日

azkaban配置

摘要: azkaban: ======================== 工作流调度器 crontab: Linux自带定时任务 azkaban: 轻量级工作流调度器 linkedIn oozie: 复杂任务调度器,重量级 apache 本地log ===> MR程序数据清洗 ====> load hive ===> hql ===> h... 阅读全文

posted @ 2018-04-25 20:37 飞机耳朵 阅读(262) 评论(0) 推荐(0) 编辑

kafka和flume集成

摘要: NewProducer: 1、通过回调,手动监控数据,并进行错误处理 2、手动控制同步,异步 3、linger.ms 控制消息在buffer停留时间 4、数据类型 StringDeSerializer ShortDeSerializer IntegerDeSerializer LongDeSeria... 阅读全文

posted @ 2018-04-25 20:32 飞机耳朵 阅读(204) 评论(0) 推荐(0) 编辑

kafka新旧配置文件详解及API

摘要: 创建topic: kafka-topics.sh --create --topic test --zookeeper s102:2181 --partitions 3 --replication-factor 2 列出topic: kafka-topics.sh --list --zookeeper s102:2181 启动生产者: kafka-c... 阅读全文

posted @ 2018-04-25 20:18 飞机耳朵 阅读(341) 评论(0) 推荐(0) 编辑

kafka配置及基本命令

摘要: kafka: 分布式消息系统 p2p + ps = 消费者组 JMS: java message service p2p: peer to peer point to point ps: publish && subscribe kafka: scala + java =====... 阅读全文

posted @ 2018-04-25 19:39 飞机耳朵 阅读(1245) 评论(0) 推荐(0) 编辑

flume中自定义sink InterCeptor

摘要: SinkProcessor: ============================ FailOver: Load balancing : //负载均衡处理器 //round_robin 轮询 1-2-3-1-2-3-... //random 随机 1-3-2-3-1-... ... 阅读全文

posted @ 2018-04-25 19:04 飞机耳朵 阅读(295) 评论(0) 推荐(0) 编辑

Avro和protobuf序列化

摘要: 序列化: 进程间通信和永久存储 特点: 紧凑 快速 可扩展性 支持互操作,跨语言 java序列化: ObjectInput(Output)Stream hadoop的writable: PersonWritable //java,非跨语言 ... 阅读全文

posted @ 2018-04-25 17:38 飞机耳朵 阅读(577) 评论(0) 推荐(0) 编辑

flume的配置详解

摘要: Flume: ===================== Flume是一种分布式的、可靠的、可用的服务,可以有效地收集、聚合和移动大量的日志数据。 它有一个基于流数据的简单而灵活的体系结构。 它具有健壮性和容错能力,具有可调的可靠性机制和许多故障转移和恢复机制。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 source:源 ... 阅读全文

posted @ 2018-04-25 17:27 飞机耳朵 阅读(14016) 评论(0) 推荐(0) 编辑

sqoop数据导入导出工具

摘要: Sqoop: 关系型数据库(mysql/oracle) hadoop(hdfs/hive/hbase) 关系型数据库向hadoop组件进行数据导入导出的工具 底层使用MR技术,适用于大数据迁移 将sqoop命令编译成Mr作业,提交给hadoop mysql ===> hadoop 导入 hadoop ==> mysql ... 阅读全文

posted @ 2018-04-25 17:10 飞机耳朵 阅读(184) 评论(0) 推荐(0) 编辑

hadoop的负载监控软件ganglia

摘要: ganglia: ====================== 负载监控软件 gmond //在所有主机上监控资源占用率 gmetad //在一个节点上通过端口收集所有主机gmond信息 gweb //收集gmetad的信息并向用户展现 安装ganglia: ======================= ... 阅读全文

posted @ 2018-04-25 16:45 飞机耳朵 阅读(166) 评论(0) 推荐(0) 编辑

Hbase的jdbc工具phoenix

摘要: phoenix:凤凰 hbase的jdbc工具 数据库:schema //ns1 表:table //ns1.t1 sqlline.py s102,s103,s104 phoenix的jdbc编程: driver:org.apache.phoenix.jdbc.PhoenixDriver url: jdbc:phoenix:s102 ... 阅读全文

posted @ 2018-04-25 16:43 飞机耳朵 阅读(2819) 评论(0) 推荐(0) 编辑

zookeeper搭建和脚本编写

摘要: hadoop: hdfs:分布式存储 MR: 分布式计算 hdfs: ========================= 1、namenode(元数据)、datanode(真实数据)、2nn(检查点) 2、hadoop-daemon.sh start namenode //启动本机进程 hadoop-daemons.sh start da... 阅读全文

posted @ 2018-04-25 16:02 飞机耳朵 阅读(313) 评论(0) 推荐(0) 编辑

HA高可用配置-Json-远程调试-聚类距离

摘要: join: Map端join //大表+小表,只需要map Reduce端join //大表+大表,需要Map和Reduce //设计组合key和flag //分组对比器 Json: fastJson技术 JSON.parseObject(str) //将string转成jsonObject ... 阅读全文

posted @ 2018-04-25 15:59 飞机耳朵 阅读(171) 评论(0) 推荐(0) 编辑

MR排序和输入输出格式

摘要: mapreduce作业提交流程: 1、配置文件 //输入输出格式(TextInput(output)Format) 2、job.waitforcompletion 3、submit 4、int map = split.size 1)、看文件格式,textFile 判断文件的压缩编解码器(文件名后缀),如果是压缩... 阅读全文

posted @ 2018-04-25 13:46 飞机耳朵 阅读(1192) 评论(0) 推荐(0) 编辑

MR job提交流程和切片算法

摘要: Mapreduce: 编程模型,适用于分布式计算 Map: 映射 预处理 Reduce: 化简 聚合 shuffle: 网络间分发 combiner: Map端的reduce partitioner: 分区,默认hash分区 combiner: 适合最大值,最小值 ... 阅读全文

posted @ 2018-04-25 13:44 飞机耳朵 阅读(984) 评论(0) 推荐(0) 编辑

导航