随笔分类 - 【Big Data大数据】
摘要:模块 以三台机器为例,分别为 hadoop000 ,hadoop001,hadoop002 。在这些机器上我需要部署哪些模块呢? HDFS: NameNode,DataNode YARN: ResourceManager,NodeManager 如下图所示: 修改 hostname 与 hosts
阅读全文
摘要:问题 在服务器上起了HDFS+Yarn,然后提交了一个作业: hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 1 2 但是运行的时候报错,Console的log如下: 2020
阅读全文
摘要:问题 在本地写了一个Java程序,操作云端的HDFS文件系统,执行ls没有问题。 在本地写了另外一个Java程序,连接云端的HDFS做MapReduce操作,报错如下。 片段1:在开始做map 0% reduce 0%操作时,报了一个Connection refused。 2020-10-31 09
阅读全文
摘要:问题 使用Hadoop时,每次起NameNode,DataNode,或者使用命令hadoop fs -ls的时候,都会出现如下提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform…
阅读全文
摘要:问题 在阿里云上我部署了一个 Single Cluster 的 HDFS,使用hadoop fs -ls /查看没有问题。 然后,在本地我跑了一个Java程序,想要连接阿里云的 HDFS 并进行基本操作。但是运行的时候报错了,关键信息如下: java.net.ConnectException: Co
阅读全文
摘要:认识Spark SQL 认识Spark Streaming Spark SQL Competitor Hive Apache Drill Amazon EMR Data Sources JSON CSV Parquet Hive Adventage Optimizations Predicate p
阅读全文
摘要:Understanding Cluster Deploying to a Cluster Spark Submit Job Understanding Cluster 在运行Spark时,有两种模式,一种是Local,一种是Cluster。顾名思义,前者是单点的,后者是集群的。对于不同的模式,在写代
阅读全文
摘要:深入解析:Shared Variables 深入解析:RDD Persistence 深入解析:RDD Key Value Pairs API 额外知识点:Implicit Conversion Shared Variables 一般来说,Spark中的变量都是local变量,每个executor都
阅读全文
摘要:进一步介绍了Transformation操作 进一步介绍了Action操作 知识点解析:Function 知识点解析:Suffle Transformation map map(func) converts each element of the source RDD into a single e
阅读全文
摘要:介绍了Spark中最重要的概念RDD 介绍了RDD的基本操作(Transformation & Action) 介绍了RDD的血缘关系(Lineage) 介绍了RDD的依赖类型(Narrow & Shuffle) 介绍了RDD的阶段(Stage) 介绍了RDD的缓存(Cache) 实战:Loadin
阅读全文
摘要:介绍了Spark的特点,历史 介绍了Spark的安装 介绍了Spark的局限性 介绍了Spark的基本工作原理 演示了一个Hello World例子 演示了一个Initiation例子 Source Spark是大数据学习的一个常用框架,很重要。下面就对以前曾经上过的课程做一个总结回顾。 (注:本文
阅读全文