《大数据技术原理与应用》学习
http://study.163.com/course/courseMain.htm?courseId=1002887002
先看了11章Spark
逻辑回归,需要迭代多,所以尤其适用Spark,100多倍
企业的应用:
1. 批量数据处理(数分钟与数小时,ETL),比如MapReduce
2. 基于历史数据的交互查询,比如Impala,Hive还不是
3. 实时数据流处理,比如Storm。比如返利的实时数据,以前通过数据库备库方式来处理,扩展性差。
而Spark提供了一站式解决。
一句话概括RDD,分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
是依据宽依赖、窄依赖,来划分stage。
Storm的优势:支持毫秒级别的流式计算。(只是秒级别的)。Storm专业成熟。
最流行的关于大数据最典型的三大框架:
Hadoop 批处理
Spark 实时批处理
Storm 流式计算
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!