07 2023 档案

摘要:Foreword Before writing this article, I wrote some history of big data components and some of its evaluations intermittently, but I didn't feel satisf 阅读全文
posted @ 2023-07-26 14:45 ImreW 阅读(41) 评论(0) 推荐(0) 编辑
摘要:一、数仓架构发展史 1.发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是有意义的,人生亦是如此。 时间就是一把尺子,它能 阅读全文
posted @ 2023-07-24 17:02 ImreW 阅读(1363) 评论(1) 推荐(2) 编辑
摘要:一、技术生态 1.初步 Hadoop只是一套工具的总称,它包含三部分:HDFS,Yarn,MapReduce,功能分别是分布式文件存储、资源调度和计算。 按理来说,这就足够了,就可以完成大数据分析了。 但第一个问题就是麻烦。这一套相当于用Yarn调度资源,读取HDFS文件内容进行MR计算。要写Jav 阅读全文
posted @ 2023-07-20 14:54 ImreW 阅读(284) 评论(0) 推荐(0) 编辑
摘要:1、Semaphore 是什么 Semaphore 通常我们叫它信号量, 可以用来控制同时访问特定资源的线程数量,通过协调各个线程,以保证合理的使用资源。 可以把它简单的理解成我们停车场入口立着的那个显示屏,每有一辆车进入停车场显示屏就会显示剩余车位减1,每有一辆车从停车场出去,显示屏上显示的剩余车 阅读全文
posted @ 2023-07-19 17:47 ImreW 阅读(243) 评论(0) 推荐(0) 编辑
摘要:1.查看监听中的(占用)端口 netstat命令 netstat命令可提供网络连接相关的信息。想要查看所有监听中的TCP或UDP端口,包含使用端口和套接字状态的服务,可使用如下命令 sudo netstat -tunlp 命令中的选项参数有如下含义 -t -显示TCP端口。 -u -显示UDP端口。 阅读全文
posted @ 2023-07-17 14:45 ImreW 阅读(10) 评论(0) 推荐(0) 编辑
摘要:(二)DataStream API DataStream是Flink编写流处理作业的API。我们前面说过一个完整的Flink处理程序应该包含三部分:数据源(Source)、转换操作(Transformation)、结果接收(Sink)。下面我们从这三部分来看DataStream API。 (五)结果 阅读全文
posted @ 2023-07-04 11:56 ImreW 阅读(40) 评论(0) 推荐(0) 编辑
摘要:(二)DataStream API DataStream是Flink编写流处理作业的API。我们前面说过一个完整的Flink处理程序应该包含三部分:数据源(Source)、转换操作(Transformation)、结果接收(Sink)。下面我们从这三部分来看DataStream API。 addSo 阅读全文
posted @ 2023-07-04 11:51 ImreW 阅读(164) 评论(0) 推荐(0) 编辑
摘要:Flink 的 DataSet 和 DataStream 的 API,并模拟了实时计算的场景。 说好的流批一体呢 现状 Flink 很重要的一个特点是“流批一体”,然而事实上 Flink 并没有完全做到所谓的“流批一体”,即编写一套代码,可以同时支持流式计算场景和批量计算的场景。目前截止 1.10 阅读全文
posted @ 2023-07-04 11:34 ImreW 阅读(13) 评论(0) 推荐(0) 编辑
摘要:准备工作 Java环境 Kafka安装包(已包含zookeeper) 安装步骤 1 Java安装 自行百度 2 下载、安装Kafka 打开 下载地址 选择下图红框中的版本,Kafka包名组成: Scala版本 - Kafka自身版本 下载完成之后解压,目录如下图: 3 启动服务 3.1 启动ZooK 阅读全文
posted @ 2023-07-04 10:45 ImreW 阅读(318) 评论(0) 推荐(0) 编辑
摘要:(一)Flink的并发执行 ,一个Flink程序可以由不同的task(如:transformations/opterators,data sources及data sinks等)组成,一个task会分发到多个并发实例中运行,并且每个并发实例处理task的部分输入数据集。一个task的并发实例数叫做p 阅读全文
posted @ 2023-07-03 15:35 ImreW 阅读(247) 评论(0) 推荐(0) 编辑
摘要:(二)DataStream API DataStream是Flink编写流处理作业的API。我们前面说过一个完整的Flink处理程序应该包含三部分:数据源(Source)、转换操作(Transformation)、结果接收(Sink)。下面我们从这三部分来看DataStream API。 (四)数据 阅读全文
posted @ 2023-07-03 10:19 ImreW 阅读(23) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示