上一页 1 2 3 4 5 6 7 ··· 13 下一页
摘要: (1)、CD命令 cd /usr/local/hadoop 移动到绝对路径为 "/usr/local/hadoop"的目录下 cd ./data 移动到相对路径为 "./data"的目录下(后面也可以是 data) cd ./../data 先返回上一级(..),再进入返回到的这一级的 data 目 阅读全文
posted @ 2020-02-03 19:52 20173667 阅读(91) 评论(0) 推荐(0) 编辑
摘要: Q:Spark和Hadoop的架构区别 A:Hadoop:MapRedcue由Map和Reduce两个阶段,并通过shuffle将两个阶段连接起来的。但是套用MapReduce模型解决问题,不得不将问题分解为若干个有依赖关系的子问题,每个子问题对应一个MapReduce作业,最终所有这些作业形成一个 阅读全文
posted @ 2020-02-02 22:52 20173667 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 1、连接FTP服务器 格式:ftp hostname或ip-address a) 在linux命令行下输入架设服务器的机器IP或者主机名:ftp 10.60.48.195 b) 服务器询问你用户名和密码,分别输入以后,待认证通过即可。注意:输入密码时,终端中不显示输入,始终一片空白,所以只要你确定输 阅读全文
posted @ 2020-02-01 22:52 20173667 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop 阅读全文
posted @ 2020-02-01 22:44 20173667 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 1开发指南 编辑 从高的层面来看,其实每一个Spark的应用,都是一个Driver类,通过运行用户定义的main函数,在集群上执行各种并发操作和计算Spark提供的最主要的抽象,是一个弹性分布式数据集(RDD),它是一种特殊集合,可以分布在集群的节点上,以函数式编程操作集合的方式,进行各种各样的并发 阅读全文
posted @ 2020-01-31 22:41 20173667 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 一、实验目的 (1)通过实验掌握基本的 MLLib 编程方法; (2)掌握用 MLLib 解决一些常见的数据分析问题,包括数据导入、成分分析和分类和 预测等。 二、实验平台 操作系统:Ubuntu16.04 JDK 版本:1.7 或以上版本 Spark 版本:2.1.0 数据集:下载 Adult 数 阅读全文
posted @ 2020-01-29 22:12 20173667 阅读(615) 评论(0) 推荐(0) 编辑
摘要: 一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 阅读全文
posted @ 2020-01-27 21:51 20173667 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 一、实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 数据库:MySQL 三、实 阅读全文
posted @ 2020-01-26 23:31 20173667 阅读(713) 评论(0) 推荐(0) 编辑
摘要: 一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数 阅读全文
posted @ 2020-01-25 14:18 20173667 阅读(1471) 评论(0) 推荐(0) 编辑
摘要: 一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:Ubuntu16.04; Spark 版本:2.1.0; Hadoop 版 阅读全文
posted @ 2020-01-24 16:20 20173667 阅读(528) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 13 下一页