随笔分类 -  【Big Data大数据】

摘要:模块 以三台机器为例,分别为 hadoop000 ,hadoop001,hadoop002 。在这些机器上我需要部署哪些模块呢? HDFS: NameNode,DataNode YARN: ResourceManager,NodeManager 如下图所示: 修改 hostname 与 hosts 阅读全文
posted @ 2021-07-10 07:45 MaxStack 阅读(87) 评论(0) 推荐(0) 编辑
摘要:问题 在服务器上起了HDFS+Yarn,然后提交了一个作业: hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 1 2 但是运行的时候报错,Console的log如下: 2020 阅读全文
posted @ 2020-11-03 17:05 MaxStack 阅读(5734) 评论(0) 推荐(0) 编辑
摘要:问题 在本地写了一个Java程序,操作云端的HDFS文件系统,执行ls没有问题。 在本地写了另外一个Java程序,连接云端的HDFS做MapReduce操作,报错如下。 片段1:在开始做map 0% reduce 0%操作时,报了一个Connection refused。 2020-10-31 09 阅读全文
posted @ 2020-10-31 11:23 MaxStack 阅读(1141) 评论(1) 推荐(1) 编辑
摘要:问题 使用Hadoop时,每次起NameNode,DataNode,或者使用命令hadoop fs -ls的时候,都会出现如下提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… 阅读全文
posted @ 2020-10-30 11:24 MaxStack 阅读(8971) 评论(0) 推荐(0) 编辑
摘要:问题 在阿里云上我部署了一个 Single Cluster 的 HDFS,使用hadoop fs -ls /查看没有问题。 然后,在本地我跑了一个Java程序,想要连接阿里云的 HDFS 并进行基本操作。但是运行的时候报错了,关键信息如下: java.net.ConnectException: Co 阅读全文
posted @ 2020-10-28 14:10 MaxStack 阅读(1604) 评论(0) 推荐(0) 编辑
摘要:认识Spark SQL 认识Spark Streaming Spark SQL Competitor Hive Apache Drill Amazon EMR Data Sources JSON CSV Parquet Hive Adventage Optimizations Predicate p 阅读全文
posted @ 2020-08-19 10:15 MaxStack 阅读(95) 评论(0) 推荐(0) 编辑
摘要:Understanding Cluster Deploying to a Cluster Spark Submit Job Understanding Cluster 在运行Spark时,有两种模式,一种是Local,一种是Cluster。顾名思义,前者是单点的,后者是集群的。对于不同的模式,在写代 阅读全文
posted @ 2020-08-18 13:43 MaxStack 阅读(44) 评论(0) 推荐(0) 编辑
摘要:深入解析:Shared Variables 深入解析:RDD Persistence 深入解析:RDD Key Value Pairs API 额外知识点:Implicit Conversion Shared Variables 一般来说,Spark中的变量都是local变量,每个executor都 阅读全文
posted @ 2020-08-17 10:15 MaxStack 阅读(78) 评论(0) 推荐(0) 编辑
摘要:进一步介绍了Transformation操作 进一步介绍了Action操作 知识点解析:Function 知识点解析:Suffle Transformation map map(func) converts each element of the source RDD into a single e 阅读全文
posted @ 2020-08-16 10:15 MaxStack 阅读(100) 评论(0) 推荐(0) 编辑
摘要:介绍了Spark中最重要的概念RDD 介绍了RDD的基本操作(Transformation & Action) 介绍了RDD的血缘关系(Lineage) 介绍了RDD的依赖类型(Narrow & Shuffle) 介绍了RDD的阶段(Stage) 介绍了RDD的缓存(Cache) 实战:Loadin 阅读全文
posted @ 2020-08-15 10:15 MaxStack 阅读(61) 评论(0) 推荐(0) 编辑
摘要:介绍了Spark的特点,历史 介绍了Spark的安装 介绍了Spark的局限性 介绍了Spark的基本工作原理 演示了一个Hello World例子 演示了一个Initiation例子 Source Spark是大数据学习的一个常用框架,很重要。下面就对以前曾经上过的课程做一个总结回顾。 (注:本文 阅读全文
posted @ 2020-08-14 10:16 MaxStack 阅读(50) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示