随笔分类 - 云计算
摘要:作者:孔凡勇现在几乎任何一个网站、Web App以及移动APP等应用都需要有图片展示的功能,对于图片功能从下至上都是很重要的。必须要具有前瞻性的规划好图片服务器,图片的上传和下载速度至关重要,当然这并不是说一上来就搞很NB的架构,至少具备一定扩展性和稳定性。虽然各种架构设计都有,在这里我只是谈谈我的...
阅读全文
摘要:1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文从设计架构,负载均衡,可扩展性和容错性等方面对比了当今开源的日志系统,包括facebook的scribe,apache的chukwa,linkedin的kafka和cloudera的flume等。2. FaceBook的Sc
阅读全文
摘要:网络是VMware vSphere 5.1的基础,所有虚拟机都需要网络来进行通信。如果将所有的虚拟机都看成是物理机,则在网络拓扑上,需要网卡和交换机等不同的网络连接设备和方式。而在虚拟化中,这些设备可以通过虚拟化的方式来实现。 VMware vSphere的基础架构是需要物理网络的支持,物理网络是为了使物理机之间能够收发数据而在物理机间建立的网络,VMware ESXi 运行于物理机之上。每台ESXi主机都不能离开物理网络,一旦离开物理网络,那在里面的虚拟网络就没有什么意义。 在本次博客中,主要讲解VMware vSphere 5.1网络中的一下内容:一、 标准交换机网络二、 分布式交换机网.
阅读全文
摘要:在上一博文中我们安装了强大的VMware vCenter管理中心,通过VMware vSphere Client连接到VMware vCenter管理中心, vSphere 的两个核心组件是 VMware ESXi 和 VMware vCenter Server。ESXi 是用于创建和运行虚拟机的虚拟化平台。vCenter Server 是一种服务,充当连接到网络的 ESXi 主机的中心管理员。vCenter Server 可用于将多个主机的资源加入池中并管理这些资源。vCenter Server 还提供了很多功能,用于监控和管理物理和虚拟基础架构。可以对整个虚拟化平台进行管理,也是作为一..
阅读全文
摘要:一、VMware vSphere 5.1简介 vSphere是VMware推出的基于云计算的新一代数据中心虚拟化套件,提供了虚拟化基础架构、高可用性、集中管理、监控等一整套解决方案。VMware 于2001 年正式推出了企业级虚拟化产品ESX(Esx和Esxi都是vSphere的组件),到了现在,历经了六代演进。而整个架构功能经过不断扩展,也越来越充足了。 在今年的8月28日举办的VMworld 2012大会上,全球虚拟化和云基础架构领导厂商VMware公司宣布推出最新VMware vSphere 5.1解决方案,通过业界领先的虚拟化、业务连续性和自动化管理功能,帮助中小型企业简化并保护IT环
阅读全文
摘要:随着大数据时代的到来,合理构建可持续的存储架构已经成为企业数据中心IT主管们面临的头号难题之一。经常有人问我,如何为成长型公司的大型系统部署存储架构,尤其是当这些大型系统承载视频、音频、或社交类网站时,该如何构建存储架构?以下介绍一些我们常选择的方法及各自的优点。构建存储架构时,要考虑许多问题,最明显的如存储容量、访问速度、缓存选择方案、服务器共享方式、访问协议及访问方法、安全及备份等等。首先,我们认为最好的存放地址是存放在云中,这些服务存放在云中会很安全,如Amazon S3,阿里云OSS,或 Qiniu’s 的动态系统。但是,若你是自己想存储数据的话,你可以选择不同类型的存储容量。DAS
阅读全文
摘要:最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200台的称为中小规模集群,这样的公司找到90%以上)上,可能享受不到扩展性带来的优势,但至少可以获取以下几个收益:(1)更快地MapReduce计算MapReduce仍是当前使用最广泛的计算框架。YARN利用异步模型对M
阅读全文
摘要:淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置,而且由于电子商务领域独特的应用场景,淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先,因此积累了很多的实践的经验和产品。TimeTunnel基于Hbase打造的消息中间件,具有高可靠、消息顺序、事务等传统特性,还能按时间维度反复订阅最近历史的任意数据高性能的broker,单节点达2万TPS,实际支持上千长链接并发承载海量的数据传输,日同步数据达10TB,并且包含淘宝主营收入等关键性数据在各IDC内,部署了超过2000个客户端,覆盖全网日志传输Scribe、flume、activemq、ZeroMQ?我们可以做得更强..
阅读全文
摘要:对SQL支持并不是Hadoop最核心的技术理念,但这一特性确实能帮助很多传统企业,尤其是已经明白下一代分析的重要性但又不想迈向MapReduce的企业,迅速走向大数据分析。为此,本文特别列举了13种从Hadoop内部可以运行SQL查询的,高水平、可用性程度很高的工具。
阅读全文
摘要:Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。功能: 1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等 ...
阅读全文
摘要:摘要:2012并非世界末日,而是云计算的春天。Google、AWS、Facebook、微软、Cloudrea,甚至已经渐渐落寞的Yahoo!都在通过云计算发力,国内如阿里、百度、腾讯、新浪这些互联网的排头兵正在全力赶上,甚至有机会重新排定座序。CSDN将从技术度角度对过去一年中云计算发生的重点事件做出点评。
阅读全文
摘要:近些年来Hadoop生态系统发展迅猛,它本身包含的软件越来越多,同时带动了周边系统的繁荣发展。尤其是在分布式计算这一领域,系统繁多纷杂,时不时冒出一个系统,号称自己比MapReduce或者Hive高效几十倍,几百倍。有一些无知的人,总是跟着瞎起哄,说Impala将取代Hive,Spark将取代Hadoop MapReduce等。本文则从问题域触发,解释说明Hadoop中每个系统独特的作用/魅力以及它们的不可替代性。 Hadoop作为一个生态系统,每个系统只解决某一个特定的问题域(甚至可能很窄),这也是Hadoop的魅力所在:不搞统一型的一个全能系统,而是小而精的多个小系统。本文重点讨论分...
阅读全文
摘要:介绍katta 是一个运行在许多商品硬件服务器上的分布式应用,它非常类似于Hadoop MapReduce, Hadoop DFS, HBase, Bigtable 和 Hypertable.概述主节点服务器管理从节点服务器和index shards任务。从节点服务器服务index shards。客户端允许从所有连接的节点上查找数据,并把所有的结果合并成一个结果返回给客户端。数据结构katta的索引是个文件夹,它里面包含一套所谓的index shards(文件形式)。这些子文件包含了Lucene索引。index shards能够很简单的用Lucene的index writer创建。创建一个ka
阅读全文
摘要:SolrCloud是基于Solr和Zookeeper的分布式搜索方案,已经进入Solr的代码库,成为下个Release(估计是4.0)的分布式部署方案。Cloud使用Zookeeper作为配置中心,存储关于分布式的节点信息。各个节点之间依然使用HTTP连接来获取查询结果。前提:索引已经创建完毕,并且分成片,即Shard。以下是官方对SolrCloud的介绍:SolrCloud is the set of Solr features that take Solr's distributed search to the next level, enabling and simplifyin
阅读全文
摘要:Solandra,从别名上就能看出来,其实它就是结合了Solr与Cassandra的实时搜索引擎程序。其特性如下:支持Solr的大多数默认特性(search, faceting, highlights)数据复制,分片,缓存及压缩这些都由Cassandra来进行Multi-master (任意结点都可供读写)实时性高,写操作完成即可读到Easily add new SolrCores w/o restart across the cluster 轻松添加及重启结点这是来自官方的介绍:Solandra is a real-time distributed search engine built o
阅读全文
摘要:Lily是什么Lily是一个可扩展的数据仓库。用于数据的存储和搜索。Lily是一个分布式系统,她并不是白手起家的,她依赖于两个已有的OpenSource软件,一个是HBase, 另一个是SOLR. 同时Lily对于使用者提供自己的操作接口,称作Lily API.Lily的优势在于她强大的搜索能力,无论是文本匹配还是全文索引,通通都能搞定。但我觉得Lily在获取这些优势的同时付出了相当大的代价,最主要的代价就是系统的复杂性。想想看,为了能够使用Lily,你需要安装并维护以下系统:HDFS, HBase, Zookeeper, SOLR, Lily. 这些系统任何一个都可能让Operation T
阅读全文