摘要: 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不 阅读全文
posted @ 2019-05-09 15:00 左手编程右手诗 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。 一、数据采集 阅读全文
posted @ 2019-05-09 13:32 左手编程右手诗 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 首先,使用 ScalaIDE 或 IDEA 创建 Scala 的 Maven 工程。需要用到 spark-core,spark-sql,spark-streaming 的 jar 包,pom 文件如下: <properties> <spark.version>2.1.0</spark.version 阅读全文
posted @ 2019-05-09 11:42 左手编程右手诗 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce,Spark能充分利用内存资源提高计算效率。 2、Spark计算框架 Driver程序启动很多workers,然后worke 阅读全文
posted @ 2019-05-09 11:33 左手编程右手诗 阅读(275) 评论(0) 推荐(0) 编辑