随笔档案「2019年5月9日」：spark再总结 ... - 左手编程右手诗

2019年5月9日

摘要： 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不阅读全文

posted @ 2019-05-09 15:00 左手编程右手诗阅读(378) 评论(0) 推荐(0)

大数据方面核心技术

摘要：大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。一、数据采集阅读全文

posted @ 2019-05-09 13:32 左手编程右手诗阅读(377) 评论(0) 推荐(0)

spark学习常用的操作

摘要：首先，使用 ScalaIDE 或 IDEA 创建 Scala 的 Maven 工程。需要用到 spark-core，spark-sql，spark-streaming 的 jar 包，pom 文件如下： <properties> <spark.version>2.1.0</spark.version 阅读全文

posted @ 2019-05-09 11:42 左手编程右手诗阅读(413) 评论(0) 推荐(0)

spark总结

摘要：一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台，它克服了MapReduce在迭代式计算和交互式计算方面的不足。相比于MapReduce，Spark能充分利用内存资源提高计算效率。 2、Spark计算框架 Driver程序启动很多workers,然后worke 阅读全文

posted @ 2019-05-09 11:33 左手编程右手诗阅读(301) 评论(0) 推荐(0)

日日新