摘要:转载请注明出处:http://www.cnblogs.com/xiaodf/ 创建kafka topic 查看所有topic列表 查看指定topic信息 控制台向topic生产数据 控制台消费topic的数据 查看topic某分区偏移量最大(小)值 增加topic分区数 删除topic,慎用,只会删
阅读全文
摘要:本文主要为了测试,在有数据的分区表中增加新的一个非分区字段后,新数据加入表中是否正常。 原始数据 创建分区表 导入数据 给表增加一列message 新数据 导入新数据 结论 新数据正常加入表中,不用删除老数据,不过老数据对应新字段的值为null
阅读全文
摘要:现象 Spark streaming读kafka数据做业务处理时,同一个stage的task,有个别task的运行时间比多数task时间都长,造成业务延迟增大。 查看业务对应的topic发现当topic isr不足时,会出现个别task运行时间过长的现象. 原因 和大部分分布式系统一样,Kafka处
阅读全文
摘要:基本描述 Kerberos 使用Needha Schroeder协议作为它的基础。它使用了一个由两个独立的逻辑部分:认证服务器和票据授权服务器组成的"可信赖的第三方",术语称为密钥分发中心(KDC)。 Kerberos 工作在用于证明用户身份的"票据"的基础上。 KDC持有一个密钥数据库;每个网络实
阅读全文
摘要:"前言" "数据倾斜调优" "调优概述" "数据倾斜发生时的现象" "数据倾斜发生的原理" "如何定位导致数据倾斜的代码" "查看导致数据倾斜的key的数据分布情况" "数据倾斜的解决方案" "解决方案一:使用Hive ETL预处理数据" "解决方案二:过滤少数导致倾斜的key" "解决方案三:提高
阅读全文
摘要:转自:http://tech.meituan.com/spark tuning basic.html?from=timeline "前言" "开发调优" "调优概述" "原则一:避免创建重复的RDD" "原则二:尽可能复用同一个RDD" "原则三:对多次使用的RDD进行持久化" "原则四:尽量避免使
阅读全文
摘要:转载请注明出处 :http://www.cnblogs.com/xiaodf/ "1 Sqoop概述" "2 版本说明" "3 驱动安装" "3.1 MySQL" "4 基本用法" "4.1 导入" "4.1.1 保护密码" "4.1.2 使用其他文件格式" "4.1.3 压缩导入的数据" "4.1
阅读全文
摘要:转载请注明出处:http://www.cnblogs.com/xiaodf/ 1、测试环境 该benchmark用到了六台机器,机器配置如下 l IntelXeon 2.5 GHz processor with six cores l Six7200 RPM SATA drives l 32GB o
阅读全文
摘要:转载请注明出处:http://www.cnblogs.com/xiaodf/ Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,采集新数据发送给消息队列等。 1 安装部署Flume 若要采集数据节点的本地数据,每个节点都需要安装一个Flume工具,用来做数据采集。 1.1
阅读全文