大数据全栈开发 - 随笔分类 - 我是小杨

hadoop-HDFS集群搭建伪分布式/分布式模式

摘要：hadoop-HDFS集群搭建伪分布式模式官网导读 http://hadoop.apache.org/docs/r2.6.5/ 支持最好的平台：GNU/Linux 依赖的软件：Java，ssh：免密登录，远程连接，远程登录远程执行文件,ssh在远程登陆的情况下，不会加载etc下的配置文件，可以 s

101

0

HDFS读写流程

摘要：HDFS读写流程分布式系统那么多，为啥要在开发一个HDFS 架构设计 HDFS是一个主从架构由一个NameNode和一些DataNode组成面向文件包含：文件数据（data）和文件元数据（metadata）--》类似属性 NameNode负责存储和管理文件元数据，并维护了一个层次型的文件目录树

132

0

大数据启蒙-初识HDFS

摘要：分治思想：我有一万个元素，查找其中的一个元素，最简单的遍历方法复杂度为O(4) (遍历四次)，如何实现准备2500个数组查找x 补充知识：什么是hash & 什么是hashCode https://blog.csdn.net/weixin_38405253/article/details/9

135

0

spark

摘要：spark 启动启动Spark cd /usr/local/spark-2.4.0-bin-hadoop2.6/sbin ./start-all.sh ./start-history-server.sh hdfs://master:8020/spark-logs 关闭Spark cd /usr/l

568

0

Scala

摘要：函数式编程面向对象编程简洁优雅安全特性：可扩展性，面向对象，函数式编程，Java和Scala无缝操作，静态类型的语言类型之间的关系数组的各种方法创建方法一 1 var arr:Array[Int]=new Array[Int](10); 创建方法二基本操作（操作数组arr）描述 a

256

0

Hive

摘要：Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的存储HDFS，查询MapReduce 优势解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理充分利用集群的CPU计算资源，存储资源，实现并行计算 Hive支持标准的SQL语法，免去了编写

392

0

MapReduce编程

摘要：MapReduce 运行步骤：input=》split=》map=》shuffle=》reduce=》output 数据文件 =》分片记录1=》分片处理1=》按键分组按键排序键值对=》处理输出的键值对=》处理结果分片记录2=》分片处理2 例子：单词计数原理 1.默认情况下，分片个数与数据块一致 2

350

0

HDFS

摘要：HDFS基本操作 hdfs dfsadmin查看命令 hdfs基本操作查看目录 hdfs dfs -ls/ [-d] [-h] [-r] 大写 -d:将path作为一个普通文件输出文件信息 -h格式化输出文件及目录信息 -r递归列出目录下的内容新建文件创建递归创建 hdfs dfs -mkd

218

0

启动集群及监控

摘要：启动集群及监控进入目录 cd /usr/local/hadoop-2.6.5/sbin/ 启动整个集群组件 ./start-dfs.sh 启动yarn集群 ./start-yarn.sh 启动日志服务 ./mr-jobhistory-daemon.sh start historyserver 查看

96

0

Spark-RDD

摘要：RDD 抽象的数据结构-》形成有向无环图高度受限的内存模型。操作类型动作类型操作转换类型操作一次只能针对RDD全集进行转换 spreak提供了RDD 的API 惰性操作天然容错性 RDD之间的依赖关系宽依赖：Shuffle操作,也就是洗牌操作，宽依赖无法优化，窄依赖可以优化 RDD 运

99

0

Spark

摘要：Spark Spark Core：最低层的组件 Spark SQL：查询计算 Spark Streaming：进行流计算 MLlib：机器学习算法库 GraphX：编写图计算算法 Hadoop表达能力有限，磁盘开销大 spark+Hadoop大数据框架 Spark概述运行速度快，内存计算有向无环

248

0

HBase简介

摘要：bigtable分布式存储架构在GFS HBase分布式存储数据库：存储完全非结构化的数据，允许几千台服务器去存储海量文件，扩展性好 (其中hbase底层用zookeeper 来管理，HDFS) HBase数据模型结构 HBase常用JavaAPI实例

127

0

Hadoop简介

摘要：Hadoop 简介：两大核心：HDFS+MapReduce Hadoop1.0，Hadoop2.0 Linux：基础 shell，sudo Hadoop集群的部署与使用先访问nameNode 存储DataNode JobTracker TaskTracker 分布式文件系统伪分布式：就是吧名称

243

0

Hadoop简介

摘要：简介大数据关键两大技术：分布式存储，分布式处理批处理计算：MapReduce，Spark 流计算：S4,Strom，Flume 图计算：Google Pergel 查询分析计算：Hive，Caddandes 云计算分布式存储；分布式处理虚拟化，多用户通过网络以服务的方式为用户提供廉价的I

127

0

Liguangyang

小杨的学习与生活

随笔分类 - 大数据全栈开发

公告

搜索

常用链接

最新随笔

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论