随笔档案「2019年1月」 - 卅先生

Spark你需要知道这些

摘要：谈到 Spark，我们总是强调它比 Hadoop 更高效。为什么它可以更高效呢？是因为它优先使用内存存储？还是因为它拥有比 MapReduce 更简单高效的计算模型？与 Hadoop 作业的区别我们知道在 Hadoop 中，一个作业（Job）可以有一个或多个... 阅读全文

posted @ 2019-01-30 19:22 卅先生阅读(428) 评论(0) 推荐(0)

摘要：HDFS 中一个简单的 Join查询，是否需要撸一大串代码？我只会SQL语句能不能入坑大数据？这里我们就来聊一聊 Hive。Hive 是什么？Hive 是一种数据仓库工具，不提供数据存储（数据还是存储在 HDFS 上），它能让你通过 SQL语句实现 Map... 阅读全文

posted @ 2019-01-30 11:49 卅先生阅读(418) 评论(0) 推荐(0)

摘要：学习大数据，刚开始接触的是 Hadoop 1.0，然后过度到 Hadoop 2.0 ，这里为了书写方便，本文中 Hadoop 1.0 采用 HV1 的缩写方式，Hadoop 2.0 采用 HV2 的缩写方式。HV1 中不得不提的两个进程：JobTracker... 阅读全文

posted @ 2019-01-29 12:36 卅先生阅读(396) 评论(0) 推荐(0)

HDFS要点剖析

摘要：谈到大数据，不得不提的一个名词是“HDFS”。它是一种分布式文件存储系统，其系统架构图如下图所示：从图中可以了解到的几个关键概念元数据（MetaData）机架（Rock）块（Block）从图中可以了解到的两个重要组件：NameNodeDataNode需要了解... 阅读全文

posted @ 2019-01-28 22:30 卅先生阅读(202) 评论(0) 推荐(0)

摘要：最早接触大数据，常萦绕耳边的一个词「MapReduce」。它到底是什么，能做什么，原理又是什么？且听下文讲解。是什么MapReduce 即是一个编程模型，又是一个计算框架，它充分采用了分治的思想，将数据处理过程拆分成两步：Map 和 Reduce。用户只需要... 阅读全文

posted @ 2019-01-28 11:24 卅先生阅读(335) 评论(0) 推荐(0)

入微者说