摘要: 下面是在yarn资源管理页面和spark作业页面无法查看的情况的尝试。 可以通过yarn application -list -appStates ALL |grep AppName,查看应用对应的appId。 1、如果Spark的资源管理器是Yarn,并且yarn开启了日志聚合功能,那么历史作业日 阅读全文
posted @ 2022-06-10 17:10 梦玄庭 阅读(701) 评论(0) 推荐(0) 编辑
摘要: 添加如下依赖: <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>30.1.1-jre</version> </dependency> 阅读全文
posted @ 2021-09-10 16:47 梦玄庭 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 转:https://blog.csdn.net/wppwpp1/article/details/102574955/ ClickHouse 连接方式 ClickHouse提供两个网络端口: HTTP 默认8123 TCP 默认9000 官方jar包(ru.yandex.clickhouse)默认是8 阅读全文
posted @ 2021-09-10 11:05 梦玄庭 阅读(1651) 评论(0) 推荐(0) 编辑
摘要: 需求:实时监控集群日志(hadoop、spark、kafka等) 思路:利用filebeat收集每个服务器中的日志并发送到统一logstash中,通过logstash输出到其它地方。由于集群可能有成百上千个节点,需使用ansible统一安装filebeat。 1、安装logstash 官方下载地址: 阅读全文
posted @ 2021-09-09 17:26 梦玄庭 阅读(294) 评论(0) 推荐(0) 编辑
摘要: kafka默认位移提交方式是自动提交,由参数enable.auto.commit配置,默认为true。自动提交是定期提交,周期时间由auto.commit.interval.ms配置,默认是5s,此参数生效的前提是enable.auto.commit为true。 在Kafka中每当消费者查找不到所记 阅读全文
posted @ 2021-09-02 09:52 梦玄庭 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 参数名称 默认值 参数释义 bootstrap.servers "" 指定连接kafka集群所需的broker地址清单 可以只指定某一个broker,多个需用逗号隔开 key.serializer "" 消息中key对应的序列化类 value.serializer "" 消息中value对应的序列化 阅读全文
posted @ 2021-09-01 10:04 梦玄庭 阅读(50) 评论(0) 推荐(0) 编辑
摘要: Kafka只能保证分区内消息有序,为了保证有序性,在acks配置非零的前提下,需指定max.in.flight.requests.per.connection(每个连接最多缓存的请求数)为1,保证前一个消息发送成功,后一个消息才开始发送;如果acks配置为0,那么生产者发送消息之后不需要等待任何服务 阅读全文
posted @ 2021-08-31 17:36 梦玄庭 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 在命令行输入mvn idea:idea 然后 file–invalidate caches 重启 阅读全文
posted @ 2021-08-31 15:50 梦玄庭 阅读(256) 评论(0) 推荐(1) 编辑
摘要: 生产者客户端的整体架构如下图所示: 整个生产者客户端由两个线程协调运行,这两个线程分别为主线程和Sender线程(发送线程)。在主线程中由KafkaProducer创建消息,然后通过可能的拦截器、序列化器和分区器的作用之后缓存到消息累加器(RecordAccumulator,也称为消息收集器〉中。S 阅读全文
posted @ 2021-08-31 15:26 梦玄庭 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 一个典型的 Kafka 体系架构包括若干 Producer、若干 Broker、若干 Consumer,以及一个ZooKeeper集群。其中ZooKeeper是Kafka用来负责集群元数据的管理、控制器的选举等操作的。Producer将消息发送到Broker,Broker负责将收到的消息存储到磁盘中 阅读全文
posted @ 2021-08-27 15:40 梦玄庭 阅读(64) 评论(0) 推荐(0) 编辑