2018 年 4月 25 日随笔档案 - 飞机耳朵

azkaban配置

摘要： azkaban: ======================== 工作流调度器 crontab： Linux自带定时任务 azkaban：轻量级工作流调度器 linkedIn oozie：复杂任务调度器，重量级 apache 本地log ===> MR程序数据清洗 ====> load hive ===> hql ===> h... 阅读全文

posted @ 2018-04-25 20:37 飞机耳朵阅读(262) 评论(0) 推荐(0) 编辑

kafka和flume集成

摘要： NewProducer： 1、通过回调，手动监控数据，并进行错误处理 2、手动控制同步，异步 3、linger.ms 控制消息在buffer停留时间 4、数据类型 StringDeSerializer ShortDeSerializer IntegerDeSerializer LongDeSeria... 阅读全文

posted @ 2018-04-25 20:32 飞机耳朵阅读(204) 评论(0) 推荐(0) 编辑

kafka新旧配置文件详解及API

摘要：创建topic： kafka-topics.sh --create --topic test --zookeeper s102:2181 --partitions 3 --replication-factor 2 列出topic: kafka-topics.sh --list --zookeeper s102:2181 启动生产者： kafka-c... 阅读全文

posted @ 2018-04-25 20:18 飞机耳朵阅读(341) 评论(0) 推荐(0) 编辑

kafka配置及基本命令

摘要： kafka：分布式消息系统 p2p + ps = 消费者组 JMS： java message service p2p： peer to peer point to point ps: publish && subscribe kafka： scala + java =====... 阅读全文

posted @ 2018-04-25 19:39 飞机耳朵阅读(1245) 评论(0) 推荐(0) 编辑

flume中自定义sink InterCeptor

摘要： SinkProcessor： ============================ FailOver： Load balancing ： //负载均衡处理器 //round_robin 轮询 1-2-3-1-2-3-... //random 随机 1-3-2-3-1-... ... 阅读全文

posted @ 2018-04-25 19:04 飞机耳朵阅读(295) 评论(0) 推荐(0) 编辑

Avro和protobuf序列化

摘要：序列化：进程间通信和永久存储特点：紧凑快速可扩展性支持互操作，跨语言 java序列化： ObjectInput(Output)Stream hadoop的writable： PersonWritable //java,非跨语言 ... 阅读全文

posted @ 2018-04-25 17:38 飞机耳朵阅读(577) 评论(0) 推荐(0) 编辑

flume的配置详解

摘要： Flume： ===================== Flume是一种分布式的、可靠的、可用的服务，可以有效地收集、聚合和移动大量的日志数据。它有一个基于流数据的简单而灵活的体系结构。它具有健壮性和容错能力，具有可调的可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型，允许在线分析应用程序。 source：源 ... 阅读全文

posted @ 2018-04-25 17:27 飞机耳朵阅读(14016) 评论(0) 推荐(0) 编辑

sqoop数据导入导出工具

摘要： Sqoop：关系型数据库(mysql/oracle) hadoop(hdfs/hive/hbase) 关系型数据库向hadoop组件进行数据导入导出的工具底层使用MR技术，适用于大数据迁移将sqoop命令编译成Mr作业，提交给hadoop mysql ===> hadoop 导入 hadoop ==> mysql ... 阅读全文

posted @ 2018-04-25 17:10 飞机耳朵阅读(184) 评论(0) 推荐(0) 编辑

hadoop的负载监控软件ganglia

摘要： ganglia： ====================== 负载监控软件 gmond //在所有主机上监控资源占用率 gmetad //在一个节点上通过端口收集所有主机gmond信息 gweb //收集gmetad的信息并向用户展现安装ganglia： ======================= ... 阅读全文

posted @ 2018-04-25 16:45 飞机耳朵阅读(166) 评论(0) 推荐(0) 编辑

Hbase的jdbc工具phoenix

摘要： phoenix：凤凰 hbase的jdbc工具数据库：schema //ns1 表：table //ns1.t1 sqlline.py s102,s103,s104 phoenix的jdbc编程： driver：org.apache.phoenix.jdbc.PhoenixDriver url： jdbc:phoenix:s102 ... 阅读全文

posted @ 2018-04-25 16:43 飞机耳朵阅读(2819) 评论(0) 推荐(0) 编辑

zookeeper搭建和脚本编写

摘要： hadoop: hdfs:分布式存储 MR：分布式计算 hdfs: ========================= 1、namenode(元数据)、datanode(真实数据)、2nn(检查点) 2、hadoop-daemon.sh start namenode //启动本机进程 hadoop-daemons.sh start da... 阅读全文

posted @ 2018-04-25 16:02 飞机耳朵阅读(313) 评论(0) 推荐(0) 编辑

HA高可用配置-Json-远程调试-聚类距离

摘要： join： Map端join //大表+小表，只需要map Reduce端join //大表+大表，需要Map和Reduce //设计组合key和flag //分组对比器 Json： fastJson技术 JSON.parseObject(str) //将string转成jsonObject ... 阅读全文

posted @ 2018-04-25 15:59 飞机耳朵阅读(171) 评论(0) 推荐(0) 编辑

MR排序和输入输出格式

摘要： mapreduce作业提交流程： 1、配置文件 //输入输出格式(TextInput(output)Format) 2、job.waitforcompletion 3、submit 4、int map = split.size 1)、看文件格式，textFile 判断文件的压缩编解码器(文件名后缀)，如果是压缩... 阅读全文

posted @ 2018-04-25 13:46 飞机耳朵阅读(1192) 评论(0) 推荐(0) 编辑

MR job提交流程和切片算法

摘要： Mapreduce：编程模型，适用于分布式计算 Map：映射预处理 Reduce: 化简聚合 shuffle：网络间分发 combiner： Map端的reduce partitioner：分区，默认hash分区 combiner：适合最大值，最小值 ... 阅读全文

posted @ 2018-04-25 13:44 飞机耳朵阅读(984) 评论(0) 推荐(0) 编辑

飞机耳朵