// // // //

随笔分类 -  BD大数据-Spark

 
spark教程(九)-操作数据库
摘要:数据库也是 spark 数据源创建 df 的一种方式,因为比较重要,所以单独算一节。 本文以 postgres 为例 安装 JDBC 首先需要 安装 postgres 的客户端驱动,即 JDBC 驱动,这是官方下载地址,JDBC,根据数据库版本下载对应的驱动 上传至 spark 目录下的 jars 阅读全文
posted @ 2019-10-18 14:53 努力的孔子 阅读(1563) 评论(0) 推荐(0) 编辑
spark教程(11)-sparkSQL 数据抽象
摘要:数据抽象 sparkSQL 的数据抽象是 DataFrame,df 相当于表格,它的每一行是一条信息,形成了一个 Row Row 它是 sparkSQL 的一个抽象,用于表示一行数据,从表现形式上看,相当于一个 tuple 或者 表中的一行; from pyspark.sql import Row 阅读全文
posted @ 2019-10-18 14:52 努力的孔子 阅读(1598) 评论(0) 推荐(0) 编辑
spark教程(七)-文件读取案例
摘要:sparkSession 读取 csv 1. 利用 sparkSession 作为 spark 切入点 2. 读取 单个 csv 和 多个 csv from pyspark.sql import SparkSession from pyspark.sql import SQLContext if _ 阅读全文
posted @ 2019-10-18 14:50 努力的孔子 阅读(1883) 评论(0) 推荐(0) 编辑
spark教程(六)-Python 编程与 spark-submit 命令
摘要:hadoop 是 java 开发的,原生支持 java;spark 是 scala 开发的,原生支持 scala; spark 还支持 java、python、R,本文只介绍 python spark 1.x 和 spark 2.x 用法略有不同,spark 1.x 的用法大部分也适用于 spark 阅读全文
posted @ 2019-10-18 14:46 努力的孔子 阅读(3359) 评论(0) 推荐(0) 编辑
spark算子篇-aggregate 系列
摘要:aggregate aggregate 是比较常用的 行动 操作,不是很好懂,这里做个解释。 aggregate(zeroValue, seqOp, combOp) zeroValue 是一个初始值,自己根据实际情况进行设定; 首先我们知道 RDD 是被分区,然后并行操作的; seqOp 是对每个分 阅读全文
posted @ 2019-10-18 14:46 努力的孔子 阅读(1140) 评论(0) 推荐(0) 编辑
spark教程(四)-SparkContext 和 RDD 算子
摘要:SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个; 利用 SparkContext 实例创建的对象都是 RD 阅读全文
posted @ 2019-10-18 14:44 努力的孔子 阅读(2065) 评论(0) 推荐(1) 编辑
spark教程(二)-shell操作
摘要:spark 支持 shell 操作 shell 主要用于调试,所以简单介绍用法即可 支持多种语言的 shell 包括 scala shell、python shell、R shell、SQL shell 等 spark-shell 用于在 scala 的 shell 模式下操作 spark pysp 阅读全文
posted @ 2019-10-15 16:43 努力的孔子 阅读(1690) 评论(0) 推荐(0) 编辑
spark教程(三)-RDD认知与创建
摘要:RDD 介绍 spark 最重要的一个概念叫 RDD,Resilient Distributed Dataset,弹性分布式数据集,它是 spark 的最基本的数据(也是计算)抽象。 代码中是一个抽象类,它代表一个 不可变、可分区、里面的元素可并行计算的数据集合。 RDD 的属性 拥有一组分区:数据 阅读全文
posted @ 2019-10-15 16:14 努力的孔子 阅读(1718) 评论(0) 推荐(0) 编辑
spark教程(一)-集群搭建
摘要:spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入 内存,这使得它能够实现实时计算。 spark 由 scala 语言开发, 阅读全文
posted @ 2019-10-02 11:54 努力的孔子 阅读(7902) 评论(0) 推荐(1) 编辑