宥宁 - 博客园

Spark SQL 编程初级实践2- 编程实现利用 DataFrame 读写 MySQL 的数据

摘要：编程实现利用 DataFrame 读写 MySQL 的数据（1）在 MySQL 数据库中新建数据库 sparktest，再创建表 employee，包含如表 6-2 所示的两行数据。表 6-2 employee 表原有数据（2）配置 Spark 通过 JDBC 连接数据库 MySQL，编程实现阅读全文

posted @ 2020-02-16 22:10 宥宁阅读(2114) 评论(0) 推荐(0) 编辑

Spark SQL 编程初级实践1-Spark SQL 基本操作

摘要： Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 }{ "id":2, "name":"Bob","age":29 }{ "id":3 , "name 阅读全文

posted @ 2020-02-16 11:17 宥宁阅读(1350) 评论(0) 推荐(0) 编辑

spark创建DataFrame的几种方式

摘要： package com.hollysys.spark import java.util import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext, SparkSession} /** * Crea 阅读全文

posted @ 2020-02-16 00:23 宥宁阅读(4923) 评论(0) 推荐(0) 编辑

python-with open() as file相关参数以及常用打开方式

摘要： with open() as file是由open()函数引申而来 fp = open("./aa.txt", "w+") fp.write("This is a text file.") fp.close() 上面是一个open()函数的例子，在用完之后必须关闭文件，否则就造成了系统资源的长期占用阅读全文

posted @ 2020-02-15 23:08 宥宁阅读(13685) 评论(0) 推荐(0) 编辑

RDD编程实践2-编写独立应用程序实现数据去重，实现求平均值问题

摘要：（1）编写独立应用程序实现数据去重 package my.scala import org.apache.spark.{SparkConf, SparkContext} object case2 { def main(args: Array[String]): Unit = { val conf = 阅读全文

posted @ 2020-02-14 19:19 宥宁阅读(2374) 评论(0) 推荐(0) 编辑

spark中常用转换操作keys 、values和mapValues

摘要： 1.keys 功能：返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke 阅读全文

posted @ 2020-02-14 17:36 宥宁阅读(1349) 评论(0) 推荐(0) 编辑

RDD编程实践1-spark-shell交互式编程

摘要： spark-shell交互式编程：根据某大学计算机系的成绩数据，完成编程，数据格式如下 1.该系共有多少个学生：首先新建RDD 通过map函数与分割函数得到第一列数据作为新的RDD RDD去重行数 2.该系共开设多少课程： 3.求Tom同学的平均分：通过filter函数进行筛选计算总数求阅读全文

posted @ 2020-02-14 16:22 宥宁阅读(887) 评论(0) 推荐(0) 编辑

scala打包工具-sbt的安装与使用

摘要：（1）下载sbt https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.11/sbt-launch.jar （2）新建目录并将sbt复制到目录下（3）编辑sbt文本文件加入以下内容： #!/bin 阅读全文

posted @ 2020-02-13 20:02 宥宁阅读(1186) 评论(0) 推荐(0) 编辑

实验3-HDFS 常用操作，Spark 读取文件系统的数据

摘要： HDFS 常用操作使用 Hadoop 提供的 Shell 命令完成如下操作：（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；（2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt，并在该文件中随便输入阅读全文

posted @ 2020-02-13 16:55 宥宁阅读(5252) 评论(0) 推荐(0) 编辑

scala中case用法

摘要： class之前添加case可以自动生成equal、hashcode、toString、copy方法和他的半生对象，并且为半生对象生成apply、unapply方法。 import scala.language.postfixOps case class ForFun(name:String) ob 阅读全文

posted @ 2020-02-12 20:17 宥宁阅读(2171) 评论(0) 推荐(0) 编辑

宥宁