01 2019 档案

摘要:1、kafka在高并发的情况下,如何避免消息丢失和消息重复? 消息丢失解决方案: 首先对kafka进行限速, 其次启用重试机制,重试间隔时间设置长一些,最后Kafka设置acks=all,即需要相应的所有处于ISR的分区都确认收到该消息后,才算发送成功 消息重复解决方案: 消息可以使用唯一id标识 阅读全文
posted @ 2019-01-24 11:16 Z、某某 阅读(13055) 评论(0) 推荐(0)
摘要:Tuning Spark 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 序列化 RDD 存储 垃圾收集调整 其他注意事项 并行度水平 减少任务的内存使用 广播大的变量 数据本地化 概要 内存管理概述 确定内存消耗 调整数据结构 序列化 RDD 存储 垃圾收集调整 并行度水平 减少任 阅读全文
posted @ 2019-01-24 09:29 Z、某某 阅读(323) 评论(0) 推荐(0)
摘要:一、flume对接sparkStreaming的两种方式: Push推送的方式 Poll拉取的方式 第一种Push方式: 代码如下: flume配置如下: 启动flume: /usr/java/flume/bin/flume-ng agent -n a1 -c conf -f /usr/java/f 阅读全文
posted @ 2019-01-23 19:24 Z、某某 阅读(721) 评论(0) 推荐(0)
摘要:linux上安装mongodb,启动时报上面的错,解决如下: 解决方法: 1、删除mongod.pid文件 rm -rf /var/run/mongodb/mongod.pid 2、修改/tmp/mongodb-27017.sock文件权限 chown mongod:mongod /tmp/mong 阅读全文
posted @ 2019-01-22 14:44 Z、某某 阅读(2899) 评论(0) 推荐(0)
摘要:Hbase的Rowkey设计原则 一、 Hbase介绍 HBase -> Hadoop Database,HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式,主要用来存储非结 阅读全文
posted @ 2019-01-19 17:54 Z、某某 阅读(9634) 评论(1) 推荐(0)
摘要:当我们出现这种情况时 FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set 阅读全文
posted @ 2019-01-08 21:21 Z、某某 阅读(3288) 评论(0) 推荐(0)
摘要:数据倾斜导致的致命后果: 1 数据倾斜直接会导致一种情况:OOM。 2 运行速度慢,特别慢,非常慢,极端的慢,不可接受的慢。 搞定数据倾斜需要: 1、搞定shuffle 2、搞定业务场景 3 搞定 cpu core的使用情况 4 搞定OOM的根本原因等。 数据倾斜的解决方案: 解决方案一:使用Hiv 阅读全文
posted @ 2019-01-06 17:20 Z、某某 阅读(449) 评论(0) 推荐(0)
摘要:一、创建表: create table windows_ss ( polno string, eff_date string, userno string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile; 数据准备 阅读全文
posted @ 2019-01-04 19:47 Z、某某 阅读(2034) 评论(0) 推荐(0)