随笔分类 -  云计算

摘要:早些时候学习hadoop的技术,我一直对里面两项技术倍感困惑,一个是zookeeper,一个就是Hbase了。现在有机会专职做大数据相关的项目,终于看到了HBase实战的项目,也因此有机会搞懂Hbase原理。 首先来点实在的东西,假如我们已经在服务器上部署好了Hbase应用,作为客户端或者说的具体点 阅读全文
posted @ 2016-06-14 22:02 夏天的森林 阅读(27705) 评论(2) 推荐(7) 编辑
摘要:本篇接着谈谈那些稍微复杂的API。 1) flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录 这个方法我最开始接触时候,总是感觉很诧异,不是太理解,现在回想起来主要原因是我接触的第一个flatMapValues的例子 阅读全文
posted @ 2016-05-23 21:31 夏天的森林 阅读(6271) 评论(0) 推荐(5) 编辑
摘要:本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala语法。 1) aggregate(zeroValue)(seqOp,combOp) 该函数的功能和r 阅读全文
posted @ 2016-05-20 22:29 夏天的森林 阅读(5506) 评论(3) 推荐(4) 编辑
摘要:上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。 Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,之所以使用键 阅读全文
posted @ 2016-05-19 21:51 夏天的森林 阅读(17679) 评论(2) 推荐(5) 编辑
摘要:本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言 阅读全文
posted @ 2016-05-18 22:17 夏天的森林 阅读(103642) 评论(5) 推荐(23) 编辑
摘要:一、下篇开头的废话 终于开写下篇了,这也是我写远程调用框架的第三篇文章,前两篇都被博客园作为【编辑推荐】的文章,很兴奋哦,嘿嘿~~~~,本人是个很臭美的人,一定得要截图为证: 今天是2014年的第一天,按中国辞旧迎新的传统,也作为我2014年第一篇博客,我想开篇前要总结下2013年的技术学习。今... 阅读全文
posted @ 2014-01-01 18:14 夏天的森林 阅读(18762) 评论(9) 推荐(25) 编辑
摘要:一、序言 Hadoop是一个技术生态圈,zookeeper是hadoop生态圈里一个非常重要的技术,当我研究学习hadoop的相关技术时候,有两块知识曾经让我十分的困惑,一个是hbase,一个就是zookeeper,hbase的困惑源自于它在颠覆了我对数据库建模的理解,而zookeeper的困惑却... 阅读全文
posted @ 2013-12-29 19:02 夏天的森林 阅读(26780) 评论(12) 推荐(32) 编辑
摘要:session是web开发里一个重要的概念,在大多数web应用里session都是被当做现成的东西,拿来就直接用,但是一些复杂的web应用里能拿来用的session已经满足不了实际的需求,当碰到这样的情况时候我们需要更加深入的理解session的机制,本文将梳理下session的相关知识,为设计可替代web容器自带的session机制打个基础。1.1session的概念在计算机专业术语里:session是指一个终端用户与交互系统进行通信的时间间隔,通常指从注册入系统到注销系统之间所经过的时间以及如果需要的话,可能还有一定操作空间。具体到web应用里的session,大家都做过web开发,这里我 阅读全文
posted @ 2013-10-29 23:22 夏天的森林 阅读(60495) 评论(11) 推荐(50) 编辑
摘要:在深入学习zookeeper我想先给大家介绍一个和zookeeper相关的应用实例,我把这个实例命名为远程调用服务。通过对这种应用实例的描述,我们会对zookeeper应用场景会有深入的了解。 远程调用是系统与系统之间的通信机制,它的另一种理解就是进程间的通信。做分布式系统的开发,远程调用技术是其核心技术。远程调用技术可以将一组计算机系统形成一个网络系统,对外提供整体服务,那么这一群的计算机系统就构成了一个更大型,性能更高的计算机系统。 我在前面的博客里介绍了一种分布式网站的架构设计,其中就有一个使用netty技术编写的组件作为前端系统和服务端系统通信的媒介。在一个大型的互联网公司里会... 阅读全文
posted @ 2013-09-02 23:31 夏天的森林 阅读(19316) 评论(25) 推荐(28) 编辑
摘要:在前面的文章里我多次提到zookeeper对于分布式系统开发的重要性,因此对zookeeper的学习是非常必要的。本篇博文主要是讲解zookeeper的安装和zookeeper的一些基本的应用,同时我还会教大家如何安装伪分布式,伪分布式不能在windows下实现,只能在linux下实现,我的伪分布式是通过电脑的虚拟机完成了,好了,不废话了,具体内容如下: 首先我们要下载一个zookeeper,下载地址是: http://www.apache.org/dyn/closer.cgi/zookeeper/ 一般我们会选择一个stable版(稳定版)进行下载,我下载的版本是zookeeper... 阅读全文
posted @ 2013-09-01 16:38 夏天的森林 阅读(12895) 评论(4) 推荐(3) 编辑
摘要:本来很喜欢读书的人,最近被看书所折磨,参加了总公司的读书会,没想又参加了部门的读书会,又的写一篇读书笔记了,这耽搁了我不少修炼技术的时间了。不过写东西这事情,我倒是越来越喜欢了,今天和大伙再分享一篇读书笔记,本次读的是迈尔-舍恩伯格的《大数据时代》,很棒的书,建议感兴趣的人们都可以去读读。网上可以下载到pdf,也不太长,很快就可以读完。大数据-互联网新的制高点 在淘宝十周年及阿里巴巴集团前CEO马云的卸任晚会上,马云说道:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”马云这句话威力巨大,导致第二周中国股市里许多与大数据相关企业的股票的涨停。这也... 阅读全文
posted @ 2013-08-24 01:39 夏天的森林 阅读(4133) 评论(11) 推荐(19) 编辑
摘要:开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不可分,所以当我写分布式文件系统时候,总是感觉自己的理解肤浅,今天我开始写mapreduce了,今天写文章时候比上周要进步多,不过到底能不能写好本文了,只有.. 阅读全文
posted @ 2013-06-23 18:00 夏天的森林 阅读(79071) 评论(26) 推荐(111) 编辑
摘要:继续研究hadoop,有童鞋问我,为啥不接着写hive的文章了,原因主要是时间不够,我对hive的研究基本结束,现在主要是hdfs和mapreduce,能写文章的时间也不多,只有周末才有时间写文章,所以最近的文章都是写hdfs和mapreduce。不过hive是建立在hdfs和mapreduce之上,研究好hdfs和mapreduce也是真正用好hive的前提。 今天的内容是mapreduce,经过这么长时间的学习,我对hadoop的相关技术理解更加深入了,这回我会尽全力讲解好mapreduce。 第一篇文件时研究mapreduce前的准本工作。 研究hadoop的准备工作 要研究... 阅读全文
posted @ 2013-06-23 10:26 夏天的森林 阅读(8583) 评论(2) 推荐(6) 编辑
摘要:1.什么是分布式文件系统?管理网络中跨多台计算机存储的文件系统称为分布式文件系统。2.为什么需要分布式文件系统了?原因很简单,当数据集的大小超过一台独立物理计算机的存储能力时候,就有必要对它进行分区(partition)并存储到若干台单独计算机上。3.分布式系统比传统的文件的系统更加复杂因为分布式文件系统架构在网络之上,因此分布式系统引入了网络编程的复杂性,所以分布式文件系统比普通文件系统更加复杂。4.Hadoop的文件系统很多童鞋会把hdfs等价于hadoop的文件系统,其实hadoop是一个综合文件系统抽象,而hdfs是hadoop旗舰级文件系统,hadoop除了hdfs还能集成其他文件系 阅读全文
posted @ 2013-06-15 16:58 夏天的森林 阅读(18463) 评论(2) 推荐(11) 编辑
摘要:在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似。 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hive的数据类型。 Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。 原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:基... 阅读全文
posted @ 2013-06-03 00:17 夏天的森林 阅读(44040) 评论(7) 推荐(32) 编辑
摘要:我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一... 阅读全文
posted @ 2013-06-02 19:22 夏天的森林 阅读(157498) 评论(11) 推荐(73) 编辑