01前言
作者:touch-fish
出处:https://www.cnblogs.com/touch-fish/p/17064053.html
本作品采用「署名-非商业性使用-禁止演绎 4.0 国际」进行许可,转载请标明作者与出处
前言
一、为什么要写这个
今年是我做工程师的第6个年头,回顾这6年虽然接触了不少东西,也学到了不少知识。但是实际上沉淀下来的东西很少。有时候回想起来,要说什么东西不会嘛,会的东西其实也不少(起码CURD灰常熟练)。但是要说什么都会,但是也没有系统的总结过。
最近闲来无事,在翻看《Hadoop 权威指南》。这本书是我2019年购买的,但是因为一些原因只看了几小结,其实主要原因是因为懒,所以就读了几小结就放书架上吃灰了。
虽然之前只是读了几小结,但是里面的内容却让我过目难忘,比如HDFS,MapReduce。加上没事做真的很无聊,于是抱着起码把售价赚回来的态度决定学习一下。但是只看书不运用还是比较枯燥的,于是乎决定写几篇文章,主要是为了记录一下,顺便检验一下自己对Hadoop的学习程度。
二、我怎么理解Hadoop
Hadoop是一个通用的大数据存储与分析平台,它的基础组件包括HDFS,MapReduce,Yarn。HDFS解决了大数据如何存储。MapReduce通过Map(映射)和Reduce(归并)两个步骤的操作,通过化整为零来处理大数据。Yarn负责调度大数据运算中的所需的计算资源。
Hadoop发展到今天已经不单单只是对大数据批处理的系统了,它还有一些相关的开源项目。例如用于数据格式的Auro、Parquet,用于数据处理的Pig、Hive、Spark。
三、这个系列的内容
这个系列的名字叫《Hello Hadoop》,灵感来源于我在github看到的一个系列《Hello ZooKeeper》,这是一篇介绍Zookeeper的入门文章。
本系列内容主要来源于对《Hadoop 权威指南》第4版的阅读总结和我自己在网上查询的资料。前几章先介绍一下Hadoop的基础操作,例如如何操作HDFS,如何简单运行一个MapReduce示例程序。后面会详细介绍MapReduce。之后就是对Hadoop的一些开源项目的介绍。计划是过年前每周更新1-2篇,之后每周更新1篇。
四、致歉
由于我也是刚学习Hadoop,文章内容主要来源于自身的理解和动手实践,所以可能会出现一些错误,如果对您产生了误导,请联系我更正。如果你也是刚接触Hadoop,有一些不同的观点,欢迎联系我进行交流。
感觉估计也没人看哈哈哈🤣
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!