摘要: 突然感觉kafka跟socket有点像,只是kafka具备更多的功能,是一个经典的消费者生产者模式。 kafka中有不同的topic,生产者可以把数据发送到不同的topic,消费可以指定相应的topic进行消费。 本文就kafka是什么,不做详细的介绍依旧是上两张图。 图一:展示了kafka的强大的 阅读全文
posted @ 2020-12-31 17:55 枯老昏瘦 阅读(221) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming 这个名字起的很有意思,就是只要能流式读取的数据,都可以作为SparkStreaming的数据源 下面我们来介绍另一种常见的流,socket流(套接字流) socket个人理解就像是一部手机(根据时代的不同,之前可以理解成有线电话),通过这部手机,可以进行信息流的传递。 阅读全文
posted @ 2020-12-31 17:10 枯老昏瘦 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 上一讲提到,spark是一个数据处理的框架,用来处理大量的数据,因为在传统的使用中,我们的文件可能只存在一台物理机器上。 但是随着互联网的发展,由于业务需要处理的数据越来越多,单台机器无法处理大量的数据,spark框架应运而生。 实际业务中,有些数据是需要实时监控处理计算的,比如网站的用户行为数据, 阅读全文
posted @ 2020-12-31 15:47 枯老昏瘦 阅读(388) 评论(0) 推荐(0) 编辑
摘要: spark是一套数据处理框架,数据分为静态数据和实时数据(sparkStreaming) 因为spark本身是一个数据处理的框架,本身不负责生产数据和存储数据。 所以需要一些数据源的接入。本文主要说的是把关系型数据库mysql作为数据源。 测试环境是在本地的mysql数据,需要本地已经安装了mysq 阅读全文
posted @ 2020-12-31 14:10 枯老昏瘦 阅读(310) 评论(0) 推荐(0) 编辑