12 2023 档案
摘要:1、kafka 1.1、kafka介绍 kafka是最初由linkedin公司开发的,使用scala语言编写,kafka是一个分布式,分区的,多副本的,多订阅者的消息队列系统。 1.2、kafka相比其他消息队列的优势 常见的消息队列:RabbitMQ,Redis ,zeroMQ ,Active
阅读全文
摘要:问题描述:在linux云服务器上搭建了一套kafka3.0集群,然后按照以前的创建topic指令: ./kafka-topics.sh --zookeeper hadoop01:2181,hadoop02:2181,hadoop03:2181 --replication-factor 1 --par
阅读全文
摘要:一、kafka是什么? Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统。Kafka具有高吞吐量、内置分区、支持数据副本和容错的特性,它可以处理消费者规模的网站中的所有动作流数据,具有高性能、持久化、多副本备份、横向扩展能力,适合在大规模消息处理场景中使用。 (1) 分布式系统
阅读全文
摘要:1.数据集下载 TPC-H数据集: https://github.com/gregrahn/tpch-kit 2.解压安装 unzip tpch-kit-master.zip cd tpch-kit-master/dbgen/ make -f Makefile 通过上面命令,生成两个文件,分别是db
阅读全文
摘要:笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。 一 .Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作
阅读全文
摘要:IT小神博客: http://www.itxiaoshen.com/ SegmentFault: https://segmentfault.com/blogs
阅读全文