摘要: 前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一、引言(大数据时代) 1.1、从数据中得到信息 我们看一张图片: 阅读全文
posted @ 2019-11-05 17:30 无敌是多么寂寞啊 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 前言 上一篇我分享了Hadoop的压缩和编解码器,在我们开发的过程中其实是经常会用到的,所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性! Hadoop用户在使用HDFS储存和处理数据不会丢失或者损坏,在磁盘或者网络上的每一个I/O操作不太可能将错误引入自己正在读/写的数据中,但是如果 阅读全文
posted @ 2019-11-05 17:26 无敌是多么寂寞啊 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 前言 前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了!接下来我分享的是Hadoop的I/O操作。 在Hadoop中为什么要去使用压缩(Compression)呢?接下来我们就知道了。 一、压缩(Compression)概述 1.1、压缩的好处 减少 阅读全文
posted @ 2019-11-05 17:25 无敌是多么寂寞啊 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 前言 我们知道HDFS集群中,所有的文件都是存放在DN的数据块中的。那我们该怎么去查看数据块的相关属性的呢?这就是我今天分享的内容了 一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置 我们知道hadoop集群遵循的是主/从的架构,namenode很多时候都不作为文件的读写操作,只负责任 阅读全文
posted @ 2019-11-05 17:23 无敌是多么寂寞啊 阅读(496) 评论(0) 推荐(0) 编辑
摘要: LanceToBigData 博客园 首页 新随笔 联系 订阅 管理 前言 HDFS(Hadoop Distributed File System)是一个分布式文件系统。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。 阅读全文
posted @ 2019-11-05 17:18 无敌是多么寂寞啊 阅读(1300) 评论(0) 推荐(0) 编辑
摘要: 前言 其实说到HDFS的存储原理,无非就是读操作和写操作,那接下来我们详细的看一下HDFS是怎么实现读写操作的! 一、HDFS读取过程 1)客户端通过调用FileSystem对象的open()来读取希望打开的文件。对于HDFS来说,这个对象是分布式文件系统的一个实例。 2)DistributedFi 阅读全文
posted @ 2019-11-05 17:16 无敌是多么寂寞啊 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 上一篇详细介绍了HDFS集群,还有操作HDFS集群的一些命令,常用的命令: hdfs dfs -ls xxx hdfs dfs -mkdir -p /xxx/xxx hdfs dfs -cat xxx hdfs dfs -put local cluster hdfs dfs -get cluster 阅读全文
posted @ 2019-11-05 17:14 无敌是多么寂寞啊 阅读(1322) 评论(0) 推荐(0) 编辑
摘要: 前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。 HDFS前言: 设计思想:(分而治之)将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 在大数据系统中作用: 阅读全文
posted @ 2019-11-05 17:12 无敌是多么寂寞啊 阅读(6699) 评论(0) 推荐(0) 编辑
摘要: 前言 上一篇介绍了伪分布式集群的搭建,其实在我们的生产环境中我们肯定不是使用只有一台服务器的伪分布式集群当中的。接下来我将给大家分享一下全分布式集群的搭建! 其实搭建最基本的全分布式集群和伪分布式集群基本没有什么区别,只有很小的区别。 一、搭建Hadoop全分布式集群前提 1.1、网络 1)如果是在 阅读全文
posted @ 2019-11-05 17:08 无敌是多么寂寞啊 阅读(1986) 评论(0) 推荐(0) 编辑
摘要: Hadoop(二)搭建伪分布式集群 前言 前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone M 阅读全文
posted @ 2019-11-05 17:06 无敌是多么寂寞啊 阅读(1193) 评论(0) 推荐(0) 编辑
摘要: 一、引言(大数据时代) 1.1、从数据中得到信息 我们看一张图片: 我们知道这个图片上的人叫张小妹,年龄20岁,职业模特。但是如果只有数据没有图片的话,就没有意义的数据了。所以数据一定是在特定的环境下才有意义的。 我们再来看一张图片: 从这张图片分析出:从纵向分析,范范和张帆的购买东西十分的相似,所 阅读全文
posted @ 2019-11-05 15:21 无敌是多么寂寞啊 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 简述 分布式事务指事务的操作位于不同的节点上,需要保证事务的 AICD 特性。 例如在下单场景下,库存和订单如果不在同一个节点上,就涉及分布式事务。 解决方案 在分布式系统中,要实现分布式事务,无外乎那几种解决方案。 一、两阶段提交(2PC) 两阶段提交(Two-phase Commit,2PC), 阅读全文
posted @ 2019-11-05 15:03 无敌是多么寂寞啊 阅读(236615) 评论(9) 推荐(19) 编辑