01 2019 档案
摘要:谈到 Spark,我们总是强调它比 Hadoop 更高效。为什么它可以更高效呢?是因为它优先使用内存存储?还是因为它拥有比 MapReduce 更简单高效的计算模型?与 Hadoop 作业的区别我们知道在 Hadoop 中,一个作业(Job)可以有一个或多个...
阅读全文
摘要:HDFS 中一个简单的 Join查询,是否需要撸一大串代码?我只会SQL语句 能不能入坑大数据?这里我们就来聊一聊 Hive。Hive 是什么?Hive 是一种数据仓库工具,不提供数据存储(数据还是存储在 HDFS 上),它能让你通过 SQL语句实现 Map...
阅读全文
摘要:学习大数据,刚开始接触的是 Hadoop 1.0,然后过度到 Hadoop 2.0 ,这里为了书写方便,本文中 Hadoop 1.0 采用 HV1 的缩写方式,Hadoop 2.0 采用 HV2 的缩写方式。HV1 中不得不提的两个进程:JobTracker...
阅读全文
摘要:谈到大数据,不得不提的一个名词是“HDFS”。它是一种分布式文件存储系统,其系统架构图如下图所示:从图中可以了解到的几个关键概念元数据(MetaData)机架(Rock)块(Block)从图中可以了解到的两个重要组件:NameNodeDataNode需要了解...
阅读全文
摘要:最早接触大数据,常萦绕耳边的一个词「MapReduce」。它到底是什么,能做什么,原理又是什么?且听下文讲解。是什么MapReduce 即是一个编程模型,又是一个计算框架,它充分采用了分治的思想,将数据处理过程拆分成两步:Map 和 Reduce。用户只需要...
阅读全文

浙公网安备 33010602011771号