XIAO的博客

本地代码上传到githup

摘要： 1.githup网站创建new repository 2.执行下面命令，找到本地用户公钥地址大多数 Git 服务器都会选择使用 SSH 公钥来进行授权。系统中的每个用户都必须提供一个公钥用于授权，没有的话就要生成一个。生成公钥的过程在所有操作系统上都差不多。首先先确认一下是否已经有一个公钥了。S 阅读全文

posted @ 2019-03-22 18:27 XIAO的博客阅读(298) 评论(0) 推荐(0)

HBase和Phoneix使用示例

摘要： HBase操作基本操作创建表获得表的描述插入几条记录查看所有数据scan 获得数据 get 获得一行的所有数据获得某行，某列族的所有数据获得某行，某列族，某列的所有数据预分区默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端阅读全文

posted @ 2019-03-22 11:20 XIAO的博客阅读(1330) 评论(0) 推荐(0)

spark on yarn运行产生jar包冲突问题

摘要： 1.1 问题描述 Spark Streaming程序解析protobuf序列化的数据时， jars 来添加依赖的protobuf java 3.0.0.jar包，使用local模式程序正常，使用yarn模式时会报找不到方法的错误，如下所示： 1.2 解决方法分析local模式能运行，yarn模式不阅读全文

posted @ 2018-06-16 11:22 XIAO的博客阅读(3539) 评论(0) 推荐(0)

zookeeper删除kafka元数据

摘要：问题：卸载kafka前未删除kafka topic,重新安装kafka后，生成跟之前topic名字相同的topic时报错，显示topic已存在原因：kafka topic的元数据存储在zookeeper里，卸载kafka前未删除topic,之前topic的元数据仍存在zk里，需要手动删除zk里的元阅读全文

posted @ 2017-01-16 13:58 XIAO的博客阅读(7648) 评论(0) 推荐(0)

部署开启了Kerberos身份验证的大数据平台集群外客户端

摘要：转载请注明出处：http://www.cnblogs.com/xiaodf/ 本文档主要用于说明，如何在集群外节点上,部署大数据平台的客户端，此大数据平台已经开启了Kerberos身份验证。通过客户端用户在集群外就可以使用集群内的服务了，如查询集群内的hdfs数据，提交spark任务到集群内执行等阅读全文

posted @ 2017-01-12 17:23 XIAO的博客阅读(4109) 评论(0) 推荐(0)

Kafka consumer处理大消息数据问题

摘要：案例分析处理kafka consumer的程序的时候，发现如下错误：如上log可以看出，问题就是有一个较大的消息数据在codeTopic的partition 3上，然后consumer未能消费，提示我可以减小broker允许进入的消息数据的大小，或者增大consumer程序消费数据的大小。从l 阅读全文

posted @ 2017-01-12 13:04 XIAO的博客阅读(18356) 评论(0) 推荐(3)

yarn队列提交spark任务权限控制

摘要：转载请注明出处：http://www.cnblogs.com/xiaodf/ "1 CapacityScheduler" "1.1 模型介绍" "1.2 资源分配相关参数" "1.3 限制应用程序数目相关参数" "1.4 队列访问和权限控制参数" "2 线上实例" "2.1 配置" "2.1.1 阅读全文

posted @ 2017-01-09 18:17 XIAO的博客阅读(27328) 评论(0) 推荐(0)

Kafka Shell基本命令（包括topic的增删改查）

摘要：转载请注明出处：http://www.cnblogs.com/xiaodf/ 创建kafka topic 查看所有topic列表查看指定topic信息控制台向topic生产数据控制台消费topic的数据查看topic某分区偏移量最大（小）值增加topic分区数删除topic，慎用，只会删阅读全文

posted @ 2016-11-23 13:09 XIAO的博客阅读(166735) 评论(1) 推荐(7)

修改hive分区表，在分区列前增加一个字段

摘要：本文主要为了测试，在有数据的分区表中增加新的一个非分区字段后，新数据加入表中是否正常。原始数据创建分区表导入数据给表增加一列message 新数据导入新数据结论新数据正常加入表中，不用删除老数据，不过老数据对应新字段的值为null 阅读全文

posted @ 2016-11-23 11:52 XIAO的博客阅读(5538) 评论(1) 推荐(1)

Kafka Topic ISR不全，个别Spark task处理时间长

摘要：现象 Spark streaming读kafka数据做业务处理时，同一个stage的task,有个别task的运行时间比多数task时间都长，造成业务延迟增大。查看业务对应的topic发现当topic isr不足时，会出现个别task运行时间过长的现象. 原因和大部分分布式系统一样，Kafka处阅读全文

posted @ 2016-11-22 19:12 XIAO的博客阅读(5008) 评论(0) 推荐(0)

公告

导航