Spark - 随笔分类 - ilinux_one

Spark-Sql之DataFrame实战详解

摘要：1、DataFrame简介：在Spark中，DataFrame是一种以RDD为基础的分布式数据据集，类似于传统数据库听二维表格，DataFrame带有Schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。类似这样的 2、准备测试结构化数据集 people.json 阅读全文

posted @ 2017-05-14 09:36 ilinux_one 阅读(4373) 评论(0) 推荐(0) 编辑

使用maven-shade-plugin插件解决spark依赖冲突问题

摘要：依赖冲突：NoSuchMethodError,ClassNotFoundException 当用户应用于Spark本身依赖同一个库时可能会发生依赖冲突，导致程序奔溃。依赖冲突表现为在运行中出现NoSuchMethodError或者ClassNotFoundException的异常或者其他与类加载相关阅读全文

posted @ 2017-05-07 09:44 ilinux_one 阅读(2415) 评论(0) 推荐(1) 编辑

Windows下搭建Spark+Hadoop开发环境

摘要：只需要确保您的电脑已装好Java环境，那么就可以开始了。一. 准备工作 1. 下载Hadoop2.7.1版本（写Spark和Hadoop主要是用到了Yarn，因此Hadoop必须安装）下载地址：http://apache.fayea.com/hadoop/common/hadoop-2.7.1/ 阅读全文

posted @ 2017-04-28 22:44 ilinux_one 阅读(333) 评论(0) 推荐(0) 编辑

Spark Streaming

摘要：对于从Kafka、Flume以及Kinesis这类数据源提取数据的流式应用来说，还需要额外增加相应的依赖项，下表列出了各种数据源对应的额外依赖项：阅读全文

posted @ 2017-04-28 22:04 ilinux_one 阅读(182) 评论(0) 推荐(0) 编辑

RDD转换DataFrame

摘要：Spark SQL有两种方法将RDD转为DataFrame。 1. 使用反射机制，推导包含指定类型对象RDD的schema。这种基于反射机制的方法使代码更简洁，而且如果你事先知道数据schema，推荐使用这种方式； 2. 编程方式构建一个schema，然后应用到指定RDD上。这种方式更啰嗦，但如果你阅读全文

posted @ 2017-04-27 00:13 ilinux_one 阅读(1149) 评论(0) 推荐(0) 编辑

Spark学习笔记之-Spark远程调试

摘要：Spark远程调试本例子介绍简单介绍spark一种远程调试方法，使用的IDE是IntelliJ IDEA。 1、了解jvm一些参数属性 -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888 这里对上面的几个参数进阅读全文

posted @ 2017-04-24 23:43 ilinux_one 阅读(5531) 评论(0) 推荐(0) 编辑

Spark集群模式&Spark程序提交

摘要：Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone—Spark自带的一种集群管理方式，易于构建集群。 Apache Mesos—通用的集群管理，可以在其上运行Hadoop MapReduce和一些服务应用。 Hadoop YARN—Ha 阅读全文

posted @ 2017-04-24 23:36 ilinux_one 阅读(1400) 评论(0) 推荐(0) 编辑

spark-submit的参数名称解析

摘要：执行时需要传入的参数说明 Usage: spark-submit [options] <app jar | Python file> [app options] 参数名称含义 --master MASTER_URL 可以是spark://host:port, mesos://host:port, 阅读全文

posted @ 2017-04-24 23:22 ilinux_one 阅读(270) 评论(0) 推荐(0) 编辑

Spark部署配置

摘要：前提是已经安装了Hadoop============================ SetUp Spark=============================Configuration spark-env.sh HADOOP_CONF_DIR=/opt/data02/hadoop-2.6.... 阅读全文

posted @ 2016-01-10 23:23 ilinux_one 阅读(195) 评论(0) 推荐(0) 编辑

Spark概述

摘要：1. Spark定义构建与计算集群之上支持大数据集的快速的通用的处理引擎a)快速： DAG、Memoryb)通用：集成Spark SQL、Streaming、Graphic、R、Batch Processc)运行方式：StandAloneYARNMesosAWSd)数据来源：Hdfs Hbase ... 阅读全文

posted @ 2016-01-10 10:15 ilinux_one 阅读(485) 评论(0) 推荐(0) 编辑

Spark1.4.1 编译与安装

摘要：1、下载下载地址：http://spark.apache.org/downloads.html选择下载源码2、源码编译1）解压tar -zxvf spark-1.4.1.tgz2、编译spark有三种编译方式1.SBT编译2.Maven编译前提：1.JDK 2.Maven 3.Scalamvn编译 ... 阅读全文

posted @ 2016-01-10 10:02 ilinux_one 阅读(446) 评论(0) 推荐(0) 编辑

ilinux_one

随笔分类 - Spark

Spark-Sql之DataFrame实战详解

使用maven-shade-plugin插件解决spark依赖冲突问题

Windows下搭建Spark+Hadoop开发环境

Spark Streaming

RDD转换DataFrame

Spark学习笔记之-Spark远程调试

Spark集群模式&Spark程序提交

spark-submit的参数名称解析

Spark部署配置

Spark概述

Spark1.4.1 编译与安装

导航

公告

统计

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论