20173667

2020年2月3日

摘要： (1)、CD命令 cd /usr/local/hadoop 移动到绝对路径为 "/usr/local/hadoop"的目录下 cd ./data 移动到相对路径为 "./data"的目录下（后面也可以是 data） cd ./../data 先返回上一级（..），再进入返回到的这一级的 data 目阅读全文

posted @ 2020-02-03 19:52 20173667 阅读(95) 评论(0) 推荐(0)

2020年2月2日

spark3

摘要： Q：Spark和Hadoop的架构区别 A：Hadoop:MapRedcue由Map和Reduce两个阶段，并通过shuffle将两个阶段连接起来的。但是套用MapReduce模型解决问题，不得不将问题分解为若干个有依赖关系的子问题，每个子问题对应一个MapReduce作业，最终所有这些作业形成一个阅读全文

posted @ 2020-02-02 22:52 20173667 阅读(656) 评论(0) 推荐(0)

2020年2月1日

实验 1 Linux 系统的安装和常用命令

摘要： 1、连接FTP服务器格式：ftp hostname或ip-address a) 在linux命令行下输入架设服务器的机器IP或者主机名：ftp 10.60.48.195 b) 服务器询问你用户名和密码，分别输入以后，待认证通过即可。注意：输入密码时，终端中不显示输入，始终一片空白，所以只要你确定输阅读全文

posted @ 2020-02-01 22:52 20173667 阅读(249) 评论(0) 推荐(0)

spark2

摘要：分布式数据集编辑 Spark围绕的核心概念，是弹性分布式数据集（RDD），一个有容错机制，可以被并行操作的集合。目前有两种类型的RDD：并行集合(Parrallelized Collections)，接收一个已经存在的Scala集合，在它上面运行各种并发计算； Hadoop数据集（Hadoop 阅读全文

posted @ 2020-02-01 22:44 20173667 阅读(132) 评论(0) 推荐(0)

2020年1月31日

spark

摘要： 1开发指南编辑从高的层面来看，其实每一个Spark的应用，都是一个Driver类，通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，是一个弹性分布式数据集(RDD)，它是一种特殊集合，可以分布在集群的节点上，以函数式编程操作集合的方式，进行各种各样的并发阅读全文

posted @ 2020-01-31 22:41 20173667 阅读(153) 评论(0) 推荐(0)

2020年1月29日

spark7

摘要：一、实验目的（1）通过实验掌握基本的 MLLib 编程方法；（2）掌握用 MLLib 解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验平台操作系统：Ubuntu16.04 JDK 版本：1.7 或以上版本 Spark 版本：2.1.0 数据集：下载 Adult 数阅读全文

posted @ 2020-01-29 22:12 20173667 阅读(656) 评论(0) 推荐(0)

2020年1月27日

spark实验6

摘要：一、实验目的（1）通过实验学习日志采集工具 Flume 的安装和使用方法；（2）掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。二、实验平台操作系统： Ubuntu16.04 Spark 版本：2.1.0 Flume 版本：1.7.0 三、实验内容和要求 1.安阅读全文

posted @ 2020-01-27 21:51 20173667 阅读(651) 评论(0) 推荐(0)

2020年1月26日

spark实验五

摘要：一、实验目的（1）通过实验掌握 Spark SQL 的基本编程方法；（2）熟悉 RDD 到 DataFrame 的转化方法；（3）熟悉利用 Spark SQL 管理来自不同数据源的数据。二、实验平台操作系统： Ubuntu16.04 Spark 版本：2.1.0 数据库：MySQL 三、实阅读全文

posted @ 2020-01-26 23:31 20173667 阅读(737) 评论(0) 推荐(0)

2020年1月25日

spark实验四

摘要：一、实验目的（1）熟悉 Spark 的 RDD 基本操作及键值对操作；（2）熟悉使用 RDD 编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04 Spark 版本：2.1.0 三、实验内容和要求 1．spark-shell 交互式编程请到本教程官网的“下载专区”的“数阅读全文

posted @ 2020-01-25 14:18 20173667 阅读(1599) 评论(0) 推荐(0)

2020年1月24日

spark实验3

摘要：一、实验目的（1）掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法；（2）熟悉 HDFS 的基本使用方法；（3）掌握使用 Spark 访问本地文件和 HDFS 文件的方法。二、实验平台操作系统：Ubuntu16.04； Spark 版本：2.1.0； Hadoop 版阅读全文

posted @ 2020-01-24 16:20 20173667 阅读(582) 评论(0) 推荐(0)

公告