spark学习笔记
Spark通过减少磁盘IO来达到性能的提升
为了适应迭代计算,Spark将经常被重用的数据缓存到内存中以提升数据读取速度,当内存容量有限的时候则将数据存入磁盘中或根据最近最少使用页面置换算法(Least Recently Used,LRU)算法将内存中使用频率较低的文件空间收回,从而让新的数据进来
spark官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html
参考资料:http://spark.apachecn.org/docs/cn/2.2.0/
1 Apache Spark 是一个快速的, 多用途的集群计算系统
2 Spark可以通过Hadoop client库使用HDFS和YARN.
3 它可以很容易的在一台本地机器上运行Spark,你只需要安装一个JAVA环境并配置PATH环境变量,或者让JAVA_HOME指向你的JAVA安装路径
4 在 Python interpreter(解释器)中运行交互式的 Spark, 请使用 bin/pyspark:
./bin/pyspark --master local[2]
Python 中也提供了应用示例。例如,
./bin/spark-submit examples/src/main/python/pi.py 10
5 Spark 既可以独立运行, 也可以在一些现有的 Cluster Manager(集群管理器)上运行
6
参考资料:http://www.ituring.com.cn/article/198895
spark-submit
这个就有点像hadoop了,一般用于写app,可以使用python,java,scala来写程序
cd 到WordCount项目根目录下运行: spark-submit --master local[4] script/WordCount.py input/TheMostDistantWayInTheWorld.txt output 然后就会多出一个output文件夹,里面存有结果
Streaming spark的流式计算系统
与 Hadoop 对比,如何看待 Spark 技术?
https://www.zhihu.com/question/26568496/answer/41608400