分布式计算技术之Stream流式计算
流式计算的概念
实时获取来自不同数据源的海量数据,进行实时分析处理,获得有价值的信息,一般用于处理数据密集型应用。流式计算属于持续性、低时延、事件驱动型的计算作业。
流式计算工作原理
1.提交流式计算作业,流式计算作业属于常驻计算服务,必须预先定义好计算逻辑,并提交到流计算系统中,在系统运行期间,流式计算作业的逻辑是不可更改的
2.加载流式数据进行流计算,流式计算系统中有多个流处理节点
3.持续输出计算结果
流式计算框架和平台
1.商业级:InfoSphere Streams,StreamBase
2.开源流计算框架:Apache Storm,S4, Spark,Flink
3.互联网公司自主研发:Facebook Puma,百度的Dstream等
Storm工作原理
架构图
Nimbus守护进程:负责为集群分发代码,为工作节点分配任务并进行故障监控
Supervisor进程:负责监听分配给他所在机器上的工作,负责接收Nimbus分配的任务
Zookeeper:Nimbus和Supervisor进程之间的协调
Worker组件
Spout:用于接收源数据
Bolt:负责处理输入的数据流
批量计算与流式计算对比
菜鸟程序员,博客只做记录,可能问题很多,有问题,还望不吝指出!转载请附上原文地址,谢谢!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
· 趁着过年的时候手搓了一个低代码框架
· 推荐一个DeepSeek 大模型的免费 API 项目!兼容OpenAI接口!
2017-02-13 腾讯优图及知脸(ZKface)人脸比对接口测试(python)