随笔分类 - Hadoop
Hadoop, MapReduce, Hbase, Hive
摘要:摘要: 通过腾讯shuffle部署对shuffle过程进行详解 摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuff
阅读全文
摘要:开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技
阅读全文
摘要:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File System(GFS)的开源实现。 MapReduce是Google MapReduce的开源实现。 HDFS和MapRe
阅读全文
摘要:Apache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案,但大型开发人员社区仍在不断改进它。最终,2.0 版提供了多项革命性功能,其中包括 Yet Another Resource Negotia
阅读全文
摘要:HBase在淘宝的应用和优化小结作者:nosqlfan on 星期一, 三月 5, 2012 · 3条评论【阅读:8,733 次】本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。原文地址:http://walkoven.com/?p=57文章PDF下载:hbase optimization and apply summary in taobao.pdf1 前言hbase是从hadoop中 分离出来的apache顶级开源项目。
阅读全文
摘要:Cloudera推出了最新版的CDH4.0在安装CDH4.0之前,首先要进行一些系统准备工作,下面是具体需要做的事情。1. Support OS for CDH4.0.2. Install JDK.=========================安装前准备实践 开始 ===============================1. 准备操作系统:由于日后希望使用Crowbar来自动安装部署CDH4.0和Cloudera Manager所以选择了 Centos6.2 64bit Server的系统,根据Centos6.2的安装步骤顺利完成安装。2. 安装好操作系统之后,首先要配置网络,设置为
阅读全文
摘要:OpenStack - KeyStone 命令行详解localadmin@OpenStack-1:~$ keystoneusage: keystone [--os_username <auth-user-name>] [--os_password <auth-password>] [--os_tenant_name <auth-tenant-name>] [--os_tenant_id <tenant-id>] [--os_auth_url <auth-url>] [--os_region_name <region-name&g
阅读全文
摘要:http://server.it168.com/a2011/1203/1283/000001283163.shtml▲中国移动研究院业务支撑所所长孙少陵 在12月3日的HiC2011大会上,中国移动研究院业务支撑所所长孙少陵发表了“电信运营商大数据处理应用研究和实践”的主题演讲。 孙少陵引用了维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。同时他介绍了大数据呈现出三大特征,即3V:数据大(Volume),例如Facebook每天在30万台服务器上 处理25Tb数据;时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻;种..
阅读全文
摘要:http://tech.it168.com/a2011/1204/1283/000001283214.shtml在今天下午进行的NoSQL系统及应用分论坛中,来自淘宝的核心系统存储组技术专家杨传辉(淘宝花名:日照)发表主题演讲“OceanBase——结构化数据海量存储系统”,介绍了淘宝OceanBase的架构、应用及其后续发展。▲淘宝核心系统存储组技术专家杨传辉 据杨传辉介绍,淘宝的OceanBase数据库最初的设计目的就是将NoSQL的可扩展性和低成本与关系型数据库的性能进行融合,充分发挥两者的优势。 Note : NoSQL 可扩展性和低成本,与关系型数据库的性能,进行融合,充分发挥两者.
阅读全文
摘要:http://tech.it168.com/a2011/1204/1283/000001283212.shtml在今天下午进行的NoSQL系统及应用分论坛中,来自华为的IT产品线企业数据解决方案架构师钟顒发表主题演讲“NoSQL/NewSQL在传统IT产业的机遇和挑战”,介绍了NoSQL/NewSQL的兴起、挑战与演进,以及传统IT产业的演变与挑战。▲华为IT产品线企业数据解决方案架构师钟顒 传统IT产业在数据领域面临很多挑战,据钟顒介绍,历史数据对企业来说是有价值的,国家的法规也规定一些特定的历史数据要长时间保留下来,这就需要对历史数据进行管理。随着传统IT产业的不断演进,电信系统容量的..
阅读全文
摘要:http://tech.it168.com/a2011/1203/1283/000001283206.shtml在今天下午进行的NoSQL系统及应用分论坛中,来自Facebook的技术经理Guoqiang Jerry Chen和软件工程师 Liyin Tang发表主题演讲“Building mission critical messaging system on top of HBase(在HBase的基础上建立关键业务消息系统)”,分享了Facebook开发HBase的经验,并且介绍Facebook Message系统的应用情况。▲Facebook的技术经理Guoqiang Jerry Ch
阅读全文
摘要:http://tech.it168.com/a2011/1203/1283/000001283154.shtml在今天下午进行的NoSQL系统及应用分论坛中,中兴云计算平台研发总工、中兴通讯技术专家委员会专家高洪发表主题演讲“NoSQL技术的电信业务实践”,介绍了NoSQL的发展现状及其在电信业务中的应用。▲中兴云计算平台研发总工、中兴通讯技术专家委员会专家高洪 关系型数据库凭借其强大的事物处理能力、灵活的结构化数据查询,以及数据的高可靠性在很多领域都有着广泛的应用,占有非常重要的地位。但是近几年这一形 势发生了变化,随着移动互联网的兴起,电信业务在高性能、低迟延、海量数据处理和高扩展性上..
阅读全文
摘要:http://tech.it168.com/a2011/1202/1283/000001283152.shtml在今天下午进行的NoSQL系统及应用分论坛中,来自淘宝的软件工程师张毅发表主题演讲“淘宝HBase应用和改善”,介绍了HBase在淘宝平台上使用,以及对HBase的调试和改进的经验分享。▲淘宝软件工程师张毅 随着淘宝的数据的快速增长,数据量每年都会翻一翻,这样的增长速度是淘宝选择HBase的重要原因。据张毅介绍,淘宝自今年年初开始对HBase进行预 演,包括线上应用和调优,以及bug的修改。这一过程包括三个阶段,第一阶段是对HBase的属性和配置等性能方面的熟悉过程;第二阶段将H..
阅读全文
摘要:http://tech.it168.com/a2011/1202/1283/000001283147.shtml在今天下午进行的NoSQL系统及应用分论坛中,来自eBay Hadoop团队的杰出工程师马明带来主题演讲“Intro to HBase and its usage in eBay(HBase及其在eBay应用)”,介绍了eBay是如何利用Hadoop和HBase来建立搜索引擎方面的技术。▲eBay Hadoop团队的首席工程师马明 eBay作为电子商务平 台连接着世界各地不同的买方和卖方,因此就需要一个功能强大的搜索引擎。一个好的搜索引擎不仅要具备快速、大规模和高可靠性的特点,还需.
阅读全文
摘要:何鹏是即刻搜索研发部系统平台组的工程师,即刻搜索是人民网其下的搜索引擎,由人民搜索转变而来,于今年6月20日正式上线。据何鹏介绍,即刻搜索 目前存放了200亿个文件以上,其整个系统架构采用Hadoop海量数据分析平台,并针对特定环境对应用程序做了修改。在本次演讲中,何鹏工程师将为我们 分析基于Hadoop的海量网页分析案例。▲即刻搜索研发部系统平台组工程师何鹏 即刻搜索整体架构借助了Hadoop整个海量分析平台,并针对特定环境增删修改了部分中间件,改良了部分应用程序,以提高性能,下图所展示的是即刻搜索的整体框架图:▲即刻搜索整体架构图 在上图中,HDFS即为Hadoop海量数据处理平台,其..
阅读全文
摘要:http://storage.it168.com/a2011/1203/1283/000001283196.shtml朱会灿现任腾讯搜搜搜索线首席架构师、基础架构部总经理,于2010年加入腾讯,主导腾讯云计算平台的开发工作。在加入腾讯之前的朱会灿曾在谷歌公 司任职长达10年之久,其间,主导开过过Google的图片搜索系统、大规模爬虫和索引系统、中日韩文检索系统以及Google学术搜索。经验非常丰富, 在本次演讲中,他讲为我们讲解腾讯自己开发的台风(Typhoon)云计算平台。▲腾讯搜搜搜索线首席架构师、基础架构部总经理朱会灿 据朱总经理介绍,腾讯的云计算平台Typhoon(台风)是一个Iaa.
阅读全文
摘要:http://storage.it168.com/a2011/1203/1283/000001283190.shtml据人人网的工程师介绍,人人网现在一共2.2亿用户,平均每个用户有大约190个好友,月均40亿的照片访问量。尽管相比于中国最大的即时通讯公司 腾讯,其用户量还有一定差距,但人人网却具有举足轻重的优势。例如有一成的付费用户,平均每天有五成用户使用人人网,并且八成用户在人人网留下了真实资 料。人人网高级技术经理白伯纯 人人网的白伯纯工程师认为,现在的互联网已经发展到了web 2.0时代,其与web 1.0相比,最大不同在于,每个用户都具有唯一标识,而这将给人人网带来巨大的机遇。用..
阅读全文
摘要:Hadoop最初起源于国外,在国外的发展速度迅猛,被众多厂商捧得一片火热。而反观国内,似乎声音很小。在本次的Hadoop中国大会上,与以往 不同的是,诸多国内厂商也加入进来,并且分享了在Hadoop应用方面的经验。下面来自华为公司的企业公有云服务CTO蒋建平先生为我们揭秘华为公司的企 业公有云服务。▲华为企业公有云服务CTO蒋建平 蒋建平先生认为,视频转码、3D渲染、金融领域计算、天气预测、风洞计算、地址模拟、仿真、数据挖掘以及其他诸多领域产生了PB级别的海量数据,对其进 行分析需要超大计算量,并且业务非常复杂,业务开发也比较困难,为了能够灵活地进行业务调度管理,高效地资源分配以及快速地完..
阅读全文
摘要:http://storage.it168.com/a2011/1203/1283/000001283153.shtml 作为了国内最大的第三方交易平台,支付宝每天所产生的数据量无疑是难以估算的。这些数据不管是对于个人用户还是支付宝都是非常重要的。通常情况下, 个人用户会对记录在Hbase内的历史消费记录进行查询,亦或是CTU风险数据项目。并且,支付宝利用Hadoop也相对比较成熟,其下包括一站式资源服务的海豚系统,以及与Pig相关的可视化用户自主查询。这些工具和应用形成了支付宝至关重要的ADC架构体系,而在这其中最为影响用户体验则是海狗实时搜索服务。 如上图所示,海狗实时搜索、蓝鲸流式计算、.
阅读全文
摘要:http://storage.it168.com/a2011/1202/1283/000001283144.shtml▲FaceBook公司软件工程师、研发经理邵铮 FaceBook公司自成立以来发展就非常迅猛,时至今日,每天都有数以万计的人活跃在FaceBook之上,这一庞大的用户群体吸引了大量的企业的注意力,他们希望通过FaceBook这一平台对自己的产品或服务进行营销,以精准找到自己的潜在用户。要精准找到自己的客户,必然要对FaceBook网站用户的实时信息进行分析,FaceBook公司提供的实时数据分析工具就凸显出重要作用。 据邵铮工程师介绍,FaceBook公司的实时数据分析...
阅读全文