【Big Data大数据】 - 随笔分类 - MaxStack

Hadoop集群部署实战

摘要：模块以三台机器为例，分别为 hadoop000 ，hadoop001，hadoop002 。在这些机器上我需要部署哪些模块呢？ HDFS: NameNode，DataNode YARN: ResourceManager，NodeManager 如下图所示：修改 hostname 与 hosts 阅读全文

posted @ 2021-07-10 07:45 MaxStack 阅读(103) 评论(0) 推荐(0)

Hadoop异常解决：Yarn Failed to launch container

摘要：问题在服务器上起了HDFS+Yarn，然后提交了一个作业： hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 1 2 但是运行的时候报错，Console的log如下： 2020 阅读全文

posted @ 2020-11-03 17:05 MaxStack 阅读(6078) 评论(0) 推荐(0)

Hadoop异常解决：本地MapReduce程序无法和云端DataNode通信

摘要：问题在本地写了一个Java程序，操作云端的HDFS文件系统，执行ls没有问题。在本地写了另外一个Java程序，连接云端的HDFS做MapReduce操作，报错如下。片段1：在开始做map 0% reduce 0%操作时，报了一个Connection refused。 2020-10-31 09 阅读全文

posted @ 2020-10-31 11:23 MaxStack 阅读(1247) 评论(1) 推荐(1)

Hadoop异常解决：Unable to load native-hadoop library

摘要：问题使用Hadoop时，每次起NameNode，DataNode，或者使用命令hadoop fs -ls的时候，都会出现如下提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… 阅读全文

posted @ 2020-10-30 11:24 MaxStack 阅读(9308) 评论(0) 推荐(0)

Hadoop异常解决：本地连接阿里云HDFS服务Connection refused

摘要：问题在阿里云上我部署了一个 Single Cluster 的 HDFS，使用hadoop fs -ls /查看没有问题。然后，在本地我跑了一个Java程序，想要连接阿里云的 HDFS 并进行基本操作。但是运行的时候报错了，关键信息如下： java.net.ConnectException: Co 阅读全文

posted @ 2020-10-28 14:10 MaxStack 阅读(1815) 评论(0) 推荐(0)

Spark笔记06 - Spark SQL & Streaming

摘要：认识Spark SQL 认识Spark Streaming Spark SQL Competitor Hive Apache Drill Amazon EMR Data Sources JSON CSV Parquet Hive Adventage Optimizations Predicate p 阅读全文

posted @ 2020-08-19 10:15 MaxStack 阅读(107) 评论(0) 推荐(0)

Spark笔记05 - 部署

摘要：Understanding Cluster Deploying to a Cluster Spark Submit Job Understanding Cluster 在运行Spark时，有两种模式，一种是Local，一种是Cluster。顾名思义，前者是单点的，后者是集群的。对于不同的模式，在写代阅读全文

posted @ 2020-08-18 13:43 MaxStack 阅读(56) 评论(0) 推荐(0)

Spark笔记04 - 进阶概念

摘要：深入解析：Shared Variables 深入解析：RDD Persistence 深入解析：RDD Key Value Pairs API 额外知识点：Implicit Conversion Shared Variables 一般来说，Spark中的变量都是local变量，每个executor都阅读全文

posted @ 2020-08-17 10:15 MaxStack 阅读(88) 评论(0) 推荐(0)

Spark笔记03 - RDD基本操作

摘要：进一步介绍了Transformation操作进一步介绍了Action操作知识点解析：Function 知识点解析：Suffle Transformation map map(func) converts each element of the source RDD into a single e 阅读全文

posted @ 2020-08-16 10:15 MaxStack 阅读(110) 评论(0) 推荐(0)

Spark笔记02 - RDD入门

摘要：介绍了Spark中最重要的概念RDD 介绍了RDD的基本操作（Transformation & Action）介绍了RDD的血缘关系（Lineage）介绍了RDD的依赖类型（Narrow & Shuffle）介绍了RDD的阶段（Stage）介绍了RDD的缓存（Cache）实战：Loadin 阅读全文

posted @ 2020-08-15 10:15 MaxStack 阅读(85) 评论(0) 推荐(0)

Spark笔记01 - 基础

摘要：介绍了Spark的特点，历史介绍了Spark的安装介绍了Spark的局限性介绍了Spark的基本工作原理演示了一个Hello World例子演示了一个Initiation例子 Source Spark是大数据学习的一个常用框架，很重要。下面就对以前曾经上过的课程做一个总结回顾。（注：本文阅读全文

posted @ 2020-08-14 10:16 MaxStack 阅读(63) 评论(0) 推荐(0)

MaxStack

随笔分类 - 【Big Data大数据】

公告