摘要: 分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统。 阅读全文
posted @ 2016-04-05 17:31 蚂蚁吃大象、 阅读(2599) 评论(0) 推荐(0) 编辑
摘要: SSD和HDD的区别 SSD优点 固态硬盘对比机械硬盘优势图表 1、读取速度 固态硬盘的读取速度普遍可以达到400M/s,写入速度也可以达到130M/s以上,其读写速度是普通机械硬盘的3-5倍; 2、抗震能力 传统的机械硬盘内部有高速运转的磁头,其抗震能力很差,因此一般的机械硬盘电如果是在运动中或者 阅读全文
posted @ 2016-04-05 16:43 蚂蚁吃大象、 阅读(896) 评论(0) 推荐(0) 编辑
摘要: Spark和Hadoop作业之间的区别 熟悉Hadoop的人应该都知道,用户先编写好一个程序,我们称为Mapreduce程序,一个Mapreduce程序就是一个Job,而一个Job里面可以有一个或多个Task,Task又可以区分为Map Task和Reduce Task,如下图所示: 而在Spark 阅读全文
posted @ 2016-04-05 15:30 蚂蚁吃大象、 阅读(366) 评论(0) 推荐(0) 编辑
摘要: POP3、SMTP和IMAP之间的区别和联系 POP3 POP3是Post Office Protocol 3的简称,即邮局协议的第3个版本,它规定怎样将个人计算机连接到Internet的邮件服务器和下载电子邮件的电子协议。它是因特网电子邮件的第一个离线协议标准,POP3允许用户从服务器上把邮件存储 阅读全文
posted @ 2016-04-05 15:07 蚂蚁吃大象、 阅读(393) 评论(0) 推荐(0) 编辑
摘要: Spark与Hadoop对比 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是J 阅读全文
posted @ 2016-04-05 13:50 蚂蚁吃大象、 阅读(983) 评论(0) 推荐(0) 编辑
摘要: MapReduce原理与设计思想 简单解释 MapReduce 算法 一个有趣的例子:你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃? MapReduce方法则是: 给在座的所有玩家中分配这摞牌 让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你 你把所有玩家告 阅读全文
posted @ 2016-04-05 11:02 蚂蚁吃大象、 阅读(1231) 评论(0) 推荐(1) 编辑