spark学习笔记

Spark通过减少磁盘IO来达到性能的提升

为了适应迭代计算,Spark将经常被重用的数据缓存到内存中以提升数据读取速度,当内存容量有限的时候则将数据存入磁盘中或根据最近最少使用页面置换算法(Least Recently Used,LRU)算法将内存中使用频率较低的文件空间收回,从而让新的数据进来

 

spark官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html

参考资料:http://spark.apachecn.org/docs/cn/2.2.0/

1 Apache Spark 是一个快速的, 多用途的集群计算系统
2 Spark可以通过Hadoop client库使用HDFS和YARN.
3 它可以很容易的在一台本地机器上运行Spark,你只需要安装一个JAVA环境并配置PATH环境变量,或者让JAVA_HOME指向你的JAVA安装路径
4 在 Python interpreter(解释器)中运行交互式的 Spark, 请使用 bin/pyspark:
./bin/pyspark --master local[2]
Python 中也提供了应用示例。例如,
./bin/spark-submit examples/src/main/python/pi.py 10
5 Spark 既可以独立运行, 也可以在一些现有的 Cluster Manager(集群管理器)上运行
6

 参考资料:http://www.ituring.com.cn/article/198895

spark-submit
这个就有点像hadoop了,一般用于写app,可以使用python,java,scala来写程序


cd 到WordCount项目根目录下运行: spark-submit --master local[4] script/WordCount.py input/TheMostDistantWayInTheWorld.txt output 然后就会多出一个output文件夹,里面存有结果

Streaming spark的流式计算系统

 

与 Hadoop 对比,如何看待 Spark 技术?

https://www.zhihu.com/question/26568496/answer/41608400

 

posted on   我和你并没有不同  阅读(118)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示