随笔分类 - 大数据全栈开发
hadoop-HDFS集群搭建伪分布式/分布式模式
摘要:hadoop-HDFS集群搭建伪分布式模式 官网导读 http://hadoop.apache.org/docs/r2.6.5/ 支持最好的平台:GNU/Linux 依赖的软件:Java,ssh:免密登录,远程连接,远程登录远程执行文件,ssh在远程登陆的情况下,不会加载etc下的配置文件,可以 s
HDFS读写流程
摘要:HDFS读写流程 分布式系统那么多,为啥要在开发一个HDFS 架构设计 HDFS是一个主从架构 由一个NameNode和一些DataNode组成 面向文件包含:文件数据(data)和文件元数据(metadata)--》类似属性 NameNode负责存储和管理文件元数据,并维护了一个层次型的文件目录树
大数据启蒙-初识HDFS
摘要:分治思想: 我有一万个元素,查找其中的一个元素,最简单的遍历方法 复杂度为O(4) (遍历四次),如何实现 准备2500个数组 查找x 补充知识:什么是hash & 什么是hashCode https://blog.csdn.net/weixin_38405253/article/details/9
spark
摘要:spark 启动 启动Spark cd /usr/local/spark-2.4.0-bin-hadoop2.6/sbin ./start-all.sh ./start-history-server.sh hdfs://master:8020/spark-logs 关闭Spark cd /usr/l
Scala
摘要:函数式编程 面向对象编程 简洁优雅安全 特性:可扩展性,面向对象,函数式编程,Java和Scala无缝操作,静态类型的语言 类型之间的关系 数组的各种方法 创建方法一 1 var arr:Array[Int]=new Array[Int](10); 创建方法二 基本操作(操作数组arr)描述 a
Hive
摘要:Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的 存储HDFS,查询MapReduce 优势 解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理 充分利用集群的CPU计算资源,存储资源,实现并行计算 Hive支持标准的SQL语法,免去了编写
MapReduce编程
摘要:MapReduce 运行步骤:input=》split=》map=》shuffle=》reduce=》output 数据文件 =》分片记录1=》分片处理1=》按键分组按键排序键值对=》处理输出的键值对=》处理结果 分片记录2=》分片处理2 例子:单词计数原理 1.默认情况下,分片个数与数据块一致 2
HDFS
摘要:HDFS基本操作 hdfs dfsadmin查看命令 hdfs基本操作 查看目录 hdfs dfs -ls/ [-d] [-h] [-r] 大写 -d:将path作为一个普通文件输出文件信息 -h格式化输出文件及目录信息 -r递归列出目录下的内容 新建文件 创建 递归创建 hdfs dfs -mkd
启动集群及监控
摘要:启动集群及监控 进入目录 cd /usr/local/hadoop-2.6.5/sbin/ 启动整个集群组件 ./start-dfs.sh 启动yarn集群 ./start-yarn.sh 启动日志服务 ./mr-jobhistory-daemon.sh start historyserver 查看
Spark-RDD
摘要:RDD 抽象的数据结构-》形成有向无环图 高度受限的内存模型。 操作类型 动作类型操作 转换类型操作 一次只能针对RDD全集进行转换 spreak提供了RDD 的API 惰性操作 天然容错性 RDD之间的依赖关系 宽依赖:Shuffle操作,也就是洗牌操作,宽依赖无法优化,窄依赖可以优化 RDD 运
Spark
摘要:Spark Spark Core:最低层的组件 Spark SQL:查询计算 Spark Streaming:进行流计算 MLlib:机器学习算法库 GraphX:编写图计算算法 Hadoop表达能力有限,磁盘开销大 spark+Hadoop大数据框架 Spark概述 运行速度快,内存计算 有向无环
HBase简介
摘要:bigtable分布式存储架构在GFS HBase分布式存储数据库: 存储完全非结构化的数据, 允许几千台服务器去存储海量文件, 扩展性好 (其中hbase底层用zookeeper 来管理,HDFS) HBase数据模型 结构 HBase常用JavaAPI实例
Hadoop简介
摘要:Hadoop 简介: 两大核心:HDFS+MapReduce Hadoop1.0,Hadoop2.0 Linux:基础 shell,sudo Hadoop集群的部署与使用 先访问nameNode 存储DataNode JobTracker TaskTracker 分布式文件系统 伪分布式:就是吧名称
Hadoop简介
摘要:简介 大数据 关键两大技术:分布式存储,分布式处理 批处理计算:MapReduce,Spark 流计算:S4,Strom,Flume 图计算:Google Pergel 查询分析计算:Hive,Caddandes 云计算 分布式存储;分布式处理 虚拟化,多用户 通过网络以服务的方式为用户提供廉价的I