上一页 1 2 3 4 5 6 7 8 9 ··· 11 下一页

2019年3月22日

摘要: 1.githup网站创建new repository 2.执行下面命令,找到本地用户公钥地址 大多数 Git 服务器都会选择使用 SSH 公钥来进行授权。系统中的每个用户都必须提供一个公钥用于授权,没有的话就要生成一个。生成公钥的过程在所有操作系统上都差不多。 首先先确认一下是否已经有一个公钥了。S 阅读全文
posted @ 2019-03-22 18:27 XIAO的博客 阅读(274) 评论(0) 推荐(0) 编辑
摘要: HBase操作 基本操作 创建表 获得表的描述 插入几条记录 查看所有数据scan 获得数据 get 获得一行的所有数据 获得某行,某列族的所有数据 获得某行,某列族,某列的所有数据 预分区 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端 阅读全文
posted @ 2019-03-22 11:20 XIAO的博客 阅读(1259) 评论(0) 推荐(0) 编辑

2018年6月16日

摘要: 1.1 问题描述 Spark Streaming程序解析protobuf序列化的数据时, jars 来添加依赖的protobuf java 3.0.0.jar包,使用local模式程序正常,使用yarn模式时会报找不到方法的错误,如下所示: 1.2 解决方法 分析local模式能运行,yarn模式不 阅读全文
posted @ 2018-06-16 11:22 XIAO的博客 阅读(3410) 评论(0) 推荐(0) 编辑

2017年1月16日

摘要: 问题:卸载kafka前未删除kafka topic,重新安装kafka后,生成跟之前topic名字相同的topic时报错,显示topic已存在 原因:kafka topic的元数据存储在zookeeper里,卸载kafka前未删除topic,之前topic的元数据仍存在zk里,需要手动删除zk里的元 阅读全文
posted @ 2017-01-16 13:58 XIAO的博客 阅读(7521) 评论(0) 推荐(0) 编辑

2017年1月12日

摘要: 转载请注明出处 :http://www.cnblogs.com/xiaodf/ 本文档主要用于说明,如何在集群外节点上,部署大数据平台的客户端,此大数据平台已经开启了Kerberos身份验证。通过客户端用户在集群外就可以使用集群内的服务了,如查询集群内的hdfs数据,提交spark任务到集群内执行等 阅读全文
posted @ 2017-01-12 17:23 XIAO的博客 阅读(4070) 评论(0) 推荐(0) 编辑
摘要: 案例分析 处理kafka consumer的程序的时候,发现如下错误: 如上log可以看出,问题就是有一个较大的消息数据在codeTopic的partition 3上,然后consumer未能消费,提示我可以减小broker允许进入的消息数据的大小,或者增大consumer程序消费数据的大小。 从l 阅读全文
posted @ 2017-01-12 13:04 XIAO的博客 阅读(18272) 评论(0) 推荐(3) 编辑

2017年1月9日

摘要: 转载请注明出处 :http://www.cnblogs.com/xiaodf/ "1 CapacityScheduler" "1.1 模型介绍" "1.2 资源分配相关参数" "1.3 限制应用程序数目相关参数" "1.4 队列访问和权限控制参数" "2 线上实例" "2.1 配置" "2.1.1 阅读全文
posted @ 2017-01-09 18:17 XIAO的博客 阅读(27170) 评论(0) 推荐(0) 编辑

2016年11月23日

摘要: 转载请注明出处:http://www.cnblogs.com/xiaodf/ 创建kafka topic 查看所有topic列表 查看指定topic信息 控制台向topic生产数据 控制台消费topic的数据 查看topic某分区偏移量最大(小)值 增加topic分区数 删除topic,慎用,只会删 阅读全文
posted @ 2016-11-23 13:09 XIAO的博客 阅读(166411) 评论(1) 推荐(7) 编辑
摘要: 本文主要为了测试,在有数据的分区表中增加新的一个非分区字段后,新数据加入表中是否正常。 原始数据 创建分区表 导入数据 给表增加一列message 新数据 导入新数据 结论 新数据正常加入表中,不用删除老数据,不过老数据对应新字段的值为null 阅读全文
posted @ 2016-11-23 11:52 XIAO的博客 阅读(5495) 评论(1) 推荐(1) 编辑

2016年11月22日

摘要: 现象 Spark streaming读kafka数据做业务处理时,同一个stage的task,有个别task的运行时间比多数task时间都长,造成业务延迟增大。 查看业务对应的topic发现当topic isr不足时,会出现个别task运行时间过长的现象. 原因 和大部分分布式系统一样,Kafka处 阅读全文
posted @ 2016-11-22 19:12 XIAO的博客 阅读(4949) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 11 下一页

导航