上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: Spark SQL基本操作 (1) 查询所有数据; (2) 查询所有数据,并去除重复的数据; (3) 查询所有数据,打印时去除id字段; (4) 筛选出age>30的记录; (5) 将数据按age分组; (6) 将数据按name升序排列; (7) 取出前3行数据; (8) 查询所有记录的name列, 阅读全文
posted @ 2020-02-09 19:36 枫黎 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 更新错误: 正在读取软件包列表... 完成 W: GPG 错误:http://mirrors.aliyun.com xenial/mongodb-org/3.2 Release: 由于没有公钥,无法验证下列签名: NO_PUBKEY D68FA50FEA312927 W: GPG 错误:http:/ 阅读全文
posted @ 2020-02-08 20:23 枫黎 阅读(4275) 评论(0) 推荐(2) 编辑
摘要: DataFrame的创建从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能Sp 阅读全文
posted @ 2020-02-08 19:51 枫黎 阅读(2126) 评论(0) 推荐(0) 编辑
摘要: 1.spark-shell交互式编程 (1) 该系总共有多少学生 scala> val lines = sc.textFile("file:///usr/local/spark/sparklab/Data01.txt") lines: org.apache.spark.rdd.RDD[String] 阅读全文
posted @ 2020-02-07 21:33 枫黎 阅读(2565) 评论(0) 推荐(0) 编辑
摘要: RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后 阅读全文
posted @ 2020-02-06 16:49 枫黎 阅读(826) 评论(0) 推荐(0) 编辑
摘要: 根据Spark2.1.0入门:Spark的安装和使用在虚拟机安装Spark,并进行测试 实验3 Spark读取文件系统的数据 将文件上传hdfs (1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; (2)在spark-sh 阅读全文
posted @ 2020-02-05 21:18 枫黎 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 实验 2 Scala 编程初级实践 一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4 阅读全文
posted @ 2020-02-04 16:33 枫黎 阅读(2246) 评论(0) 推荐(0) 编辑
摘要: 1.Scala有两种类型的变量:val:是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值;var:是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。基本语法:val 变量名:数据类型 = 初始值var 变量名:数据类型 = 初始值类型推断机制(type inferenc 阅读全文
posted @ 2020-02-03 16:18 枫黎 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬虫访问网站的过程会消耗目标系统资 阅读全文
posted @ 2020-02-02 15:00 枫黎 阅读(2678) 评论(0) 推荐(1) 编辑
摘要: 实验 1 Linux 系统的安装和常用命令 (题目) 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统 上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同 时,下一章的 Scala 阅读全文
posted @ 2020-02-01 18:39 枫黎 阅读(3385) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页