随笔分类 - spark
摘要:1.1 例子,美国 1880 - 2014 年新生婴儿数据统计 目标:用美国 1880 - 2014 年新生婴儿的数据来做做简单的统计 数据源: https://catalog.data.gov 数据格式: 每年的新生婴儿数据在一个文件里面 每个文件的每一条数据格式:姓名,性别,新生人数 每年的新生
阅读全文
摘要:0.spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象
阅读全文
摘要:这里需要注意的是,以下两种写法实现的是完全不一样的功能: Example showing why foo(_) and foo _ are different: In the first case, process _ represents a method; Scala takes the pol
阅读全文
摘要:作为windows下的spark开发环境 1.应用安装 首先安装好idea2017 java8 scalaJDK spark hadoop(注意scala和spark的版本要匹配) 2.打开idea,创建建maven项目,如图所示 项目创建好后,记得勾选maven auto upate选项,这个动作
阅读全文
摘要:Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar
阅读全文
摘要:一、 关于Apache Spark Apache Spark是个开源和兼容Hadoop的集群计算平台。由加州大学伯克利分校的AMPLabs开发,作为Berkeley Data Analytics Stack(BDAS)的一部分,当下由大数据公司Databricks保驾护航,更是Apache旗下的顶级
阅读全文
摘要:http://www.runoob.com/scala/scala-tutorial.html
阅读全文