2020年8月5日

Spark——需要HADOOP来运行SPARK吗?

摘要: 前言 Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。 Hadoop和Apache Spark都是当今蓬勃发展 阅读全文

posted @ 2020-08-05 15:37 曹伟雄 阅读(8669) 评论(0) 推荐(0) 编辑

Spark——常用命令

摘要: 查看正在处理(appStatus=SUBMITED、ACCEPTED、RUNNING)的应用 yarn application -list 查看所有的应用 yarn application -list -appStates ALL 查看某个应用的状态 yarn application -status 阅读全文

posted @ 2020-08-05 15:36 曹伟雄 阅读(1144) 评论(0) 推荐(0) 编辑

Hadoop——常用命令

摘要: 查询 hadoop dfs -ls / hadoop dfs -ls -R / 注:-R 是递归查询 创建目录 hadoop dfs -mkdir /test 创建文件 hadoop dfs -touchz /aa.txt 查看文件内容 hadoop dfs -cat /test/aa.txt 上传 阅读全文

posted @ 2020-08-05 15:35 曹伟雄 阅读(507) 评论(0) 推荐(0) 编辑

导航