随笔分类 - spark

spark中job stage task关系

摘要：1.1 例子，美国 1880 － 2014 年新生婴儿数据统计目标：用美国 1880 － 2014 年新生婴儿的数据来做做简单的统计数据源： https://catalog.data.gov 数据格式：每年的新生婴儿数据在一个文件里面每个文件的每一条数据格式：姓名,性别,新生人数每年的新生阅读全文

posted @ 2018-01-05 14:40 daniel456 阅读(13177) 评论(2) 推荐(4) 编辑

Spark RDD详解

摘要：0.spark简介 Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象阅读全文

posted @ 2018-01-05 14:38 daniel456 阅读(4069) 评论(0) 推荐(0) 编辑

Scala 中下划线的用法

摘要：这里需要注意的是，以下两种写法实现的是完全不一样的功能： Example showing why foo(_) and foo _ are different: In the first case, process _ represents a method; Scala takes the pol 阅读全文

posted @ 2018-01-05 14:35 daniel456 阅读(959) 评论(0) 推荐(0) 编辑

IDEA2017 maven Spark HelloWorld项目（本地断点调试）

摘要：作为windows下的spark开发环境 1.应用安装首先安装好idea2017 java8 scalaJDK spark hadoop（注意scala和spark的版本要匹配） 2.打开idea，创建建maven项目，如图所示项目创建好后，记得勾选maven auto upate选项，这个动作阅读全文

posted @ 2018-01-05 14:26 daniel456 阅读(2327) 评论(0) 推荐(1) 编辑

Spark内存管理详解

摘要：Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar 阅读全文

posted @ 2018-01-05 14:23 daniel456 阅读(10359) 评论(4) 推荐(4) 编辑

Spark基础知识

摘要：一、关于Apache Spark Apache Spark是个开源和兼容Hadoop的集群计算平台。由加州大学伯克利分校的AMPLabs开发，作为Berkeley Data Analytics Stack（BDAS）的一部分，当下由大数据公司Databricks保驾护航，更是Apache旗下的顶级阅读全文

posted @ 2018-01-05 14:18 daniel456 阅读(272) 评论(0) 推荐(0) 编辑

scala基本语法

摘要：http://www.runoob.com/scala/scala-tutorial.html 阅读全文

posted @ 2018-01-05 10:20 daniel456 阅读(113) 评论(0) 推荐(0) 编辑

Scala统计一个文件所有单词出现的次数

摘要：方法二：阅读全文

posted @ 2017-11-29 10:08 daniel456 阅读(4355) 评论(0) 推荐(0) 编辑

公告

昵称： daniel456
园龄： 7年4个月
粉丝： 23
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

andywu

随笔分类 - spark

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论