spark学习笔记一:初识spark
spark处理大数据及数据挖掘优点:
1.速度快:Apache Spark拥有先进的DAG调度器、查询优化器以及物理执行引擎从而高性能的实现批处理和流数据处理。
2.易用性:(可以使用Java,Scala,Python,R以及SQL快速的写Spark应用)Spark提供80个以上高级算子便于执行并行应用,并且可以使用Scala、Python、R以及SQL的shell端交互式运行Spark应用。
3.通用性:(支持SQL,流数据处理以及复杂分析)Spark拥有一系列库,包括SQL和DataFrame,用于机器学习的MLib,支持图计算GraphX以及流计算模块Streaming。
4.支持多种模式运行:(平台包括Hadoop,Apache Mesos,Kubernete,standalone或者云上,也可以获取各种数据源上的数据)Spark可以直接运行以自身的standalone集群模式运行,也可以在亚马逊EC2上运行,不过企业级用的比较多的是Hadoop Yarn模式,当然也有Mesos和Kubernetes模式。可以获取不限于来自于HDFS、Apache Cassandra、Apache HBase和Apache Hive等上百种数据源。
https://www.cnblogs.com/liuys635/p/12020239.html(spark入门实战资料)