上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 22 下一页
摘要: 简介 spark SQL官网:http://spark.apache.org/docs/latest/sql-programming-guide.html sparkSQL是构建在sparkCore之上的组件,用于处理结构化的数据。它将数据抽象为DataFrame并提供丰富的API,并且sparkS 阅读全文
posted @ 2018-12-09 22:18 __lay 阅读(3840) 评论(0) 推荐(0) 编辑
摘要: 简介 spark graphx官网:http://spark.apache.org/docs/latest/graphx-programming-guide.html#overview spark graphx是基于spark core之上的一个图计算组件,graphx扩展了spark RDD,是s 阅读全文
posted @ 2018-12-09 21:26 __lay 阅读(1258) 评论(0) 推荐(0) 编辑
摘要: 简介 sparkStream官网:http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview sparkStream是构建在spark core之上的实时流处理框架,它支持很多的数据源,如: 你可以从ka 阅读全文
posted @ 2018-12-08 22:58 __lay 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 本文将简单搭建一个spark的开发环境,如下: 1)操作系统:window os 2)IDEA开发工具以及scala插件(IDEA和插件版本要对应): 2-1)IDEA2018.2.1:https://www.jetbrains.com/ 2-2)scala-intellij-bin-2018.2. 阅读全文
posted @ 2018-12-04 13:21 __lay 阅读(2204) 评论(0) 推荐(0) 编辑
摘要: 简介 spark RDD操作具体参考官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html#overview RDD全称叫做Resilient Distributed Datasets,直译为弹性分布式数据集,是spark中 阅读全文
posted @ 2018-12-02 23:08 __lay 阅读(986) 评论(0) 推荐(0) 编辑
摘要: 简介 spark的yarn运行模式根据Driver在集群中的位置分成两种: 1)yarn-client 客户端模式 2)yarn-cluster 集群模式 yarn模式和standalone模式不同,standalone模式需要启动spark独立集群,这样SparkContext才能与Master进 阅读全文
posted @ 2018-12-02 22:29 __lay 阅读(2064) 评论(0) 推荐(0) 编辑
摘要: 在上文中我们知道spark的集群主要有三种运行模式standalone、yarn、mesos,其中常被使用的是standalone和yarn,本文了解一下什么是standalone运行模式,它的运行流程是怎么样的。 简介 standalone模式,是spark自己实现的,它是一个资源调度框架。这里我 阅读全文
posted @ 2018-12-02 18:52 __lay 阅读(15085) 评论(0) 推荐(1) 编辑
摘要: spark集群架构官方文档:http://spark.apache.org/docs/latest/cluster-overview.html 集群架构 我们先看这张图 这张图把spark架构拆分成了两块内容: 1)spark应用程序:即左边的DriverProgram这块; 2)spark 集群: 阅读全文
posted @ 2018-12-01 01:32 __lay 阅读(1550) 评论(0) 推荐(1) 编辑
摘要: 一、简介 spark的官网:http://spark.apache.org/ spark解决了什么问题? 我们都知道hadoop,hadoop以一个非常容易使用的编程模型解决了大数据的两大难题: 1)分布式存储hdfs; 2)分布式计算mapReduce; 但是hadoop也存在着一些问题,最主要的 阅读全文
posted @ 2018-12-01 00:42 __lay 阅读(479) 评论(0) 推荐(1) 编辑
摘要: 一、安装spark spark SQL是spark的一个功能模块,所以我们事先要安装配置spark,参考: https://www.cnblogs.com/lay2017/p/10006935.html 二、数据准备 演示操作将从一个类似json文件里面读取数据作为数据源,并初始化为datafram 阅读全文
posted @ 2018-11-23 16:43 __lay 阅读(1558) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 22 下一页