BD大数据-Spark - 随笔分类(第2页) - 努力的孔子

spark教程(九)-操作数据库

摘要：数据库也是 spark 数据源创建 df 的一种方式，因为比较重要，所以单独算一节。本文以 postgres 为例安装 JDBC 首先需要安装 postgres 的客户端驱动，即 JDBC 驱动，这是官方下载地址，JDBC，根据数据库版本下载对应的驱动上传至 spark 目录下的 jars 阅读全文

posted @ 2019-10-18 14:53 努力的孔子阅读(1563) 评论(0) 推荐(0) 编辑

spark教程(11)-sparkSQL 数据抽象

摘要：数据抽象 sparkSQL 的数据抽象是 DataFrame，df 相当于表格，它的每一行是一条信息，形成了一个 Row Row 它是 sparkSQL 的一个抽象，用于表示一行数据，从表现形式上看，相当于一个 tuple 或者表中的一行； from pyspark.sql import Row 阅读全文

posted @ 2019-10-18 14:52 努力的孔子阅读(1598) 评论(0) 推荐(0) 编辑

spark教程(七)-文件读取案例

摘要：sparkSession 读取 csv 1. 利用 sparkSession 作为 spark 切入点 2. 读取单个 csv 和多个 csv from pyspark.sql import SparkSession from pyspark.sql import SQLContext if _ 阅读全文

posted @ 2019-10-18 14:50 努力的孔子阅读(1883) 评论(0) 推荐(0) 编辑

spark教程(六)-Python 编程与 spark-submit 命令

摘要：hadoop 是 java 开发的，原生支持 java；spark 是 scala 开发的，原生支持 scala； spark 还支持 java、python、R，本文只介绍 python spark 1.x 和 spark 2.x 用法略有不同，spark 1.x 的用法大部分也适用于 spark 阅读全文

posted @ 2019-10-18 14:46 努力的孔子阅读(3359) 评论(0) 推荐(0) 编辑

spark算子篇-aggregate 系列

摘要：aggregate aggregate 是比较常用的行动操作，不是很好懂，这里做个解释。 aggregate(zeroValue, seqOp, combOp) zeroValue 是一个初始值，自己根据实际情况进行设定；首先我们知道 RDD 是被分区，然后并行操作的； seqOp 是对每个分阅读全文

posted @ 2019-10-18 14:46 努力的孔子阅读(1140) 评论(0) 推荐(0) 编辑

spark教程(四)-SparkContext 和 RDD 算子

摘要：SparkContext SparkContext 是在 spark 库中定义的一个类，作为 spark 库的入口点；它表示连接到 spark，在进行 spark 操作之前必须先创建一个 SparkContext 的实例，并且只能创建一个；利用 SparkContext 实例创建的对象都是 RD 阅读全文

posted @ 2019-10-18 14:44 努力的孔子阅读(2065) 评论(0) 推荐(1) 编辑

spark教程(二)-shell操作

摘要：spark 支持 shell 操作 shell 主要用于调试，所以简单介绍用法即可支持多种语言的 shell 包括 scala shell、python shell、R shell、SQL shell 等 spark-shell 用于在 scala 的 shell 模式下操作 spark pysp 阅读全文

posted @ 2019-10-15 16:43 努力的孔子阅读(1690) 评论(0) 推荐(0) 编辑

spark教程(三)-RDD认知与创建

摘要：RDD 介绍 spark 最重要的一个概念叫 RDD，Resilient Distributed Dataset，弹性分布式数据集，它是 spark 的最基本的数据（也是计算）抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的数据集合。 RDD 的属性拥有一组分区：数据阅读全文

posted @ 2019-10-15 16:14 努力的孔子阅读(1718) 评论(0) 推荐(0) 编辑

spark教程(一)-集群搭建

摘要：spark 简介建议先阅读我的博客大数据基础架构 spark 一个通用的计算引擎，专门为大规模数据处理而设计，与 mapreduce 类似，不同的是，mapreduce 把中间结果写入 hdfs，而 spark 直接写入内存，这使得它能够实现实时计算。 spark 由 scala 语言开发，阅读全文

posted @ 2019-10-02 11:54 努力的孔子阅读(7902) 评论(0) 推荐(1) 编辑

随笔分类 - BD大数据-Spark

导航