飞鸟各投林

导航

2016年4月8日 #

淘宝分布式数据处理实践

摘要: 淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为: 1.总容量为9.3PB,利用率77.09%。 2.共有1100台机器。 3.Master:8CPU,48GB内存,SAS Raid。 4.Slave节点异 阅读全文

posted @ 2016-04-08 22:00 飞鸟各投林 阅读(279) 评论(0) 推荐(0) 编辑

Hadoop的分布式架构改进与应用

摘要: 1. 背景介绍 谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。 虽然Google没有开源这三个技术的实现源码,但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品:HDFS 阅读全文

posted @ 2016-04-08 21:52 飞鸟各投林 阅读(336) 评论(0) 推荐(0) 编辑

Hadoop十年解读与发展预测

摘要: 编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变 阅读全文

posted @ 2016-04-08 18:58 飞鸟各投林 阅读(630) 评论(0) 推荐(0) 编辑

吴超老师课程--Flume的安装和介绍

摘要: 常用的分布式日志收集系统 一:flume概述参考官方网址:http://flume.apache.org/documentation.htmlflume是一个分布式的数据收集系统,具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快,完全可以用于生产环境。flume的核心是agent。age 阅读全文

posted @ 2016-04-08 14:12 飞鸟各投林 阅读(300) 评论(0) 推荐(0) 编辑

吴超老师课程--Sqoop的安装和介绍

摘要: SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 一:安装步骤1.解压、设置环境变量,略2.把mysql.............ja 阅读全文

posted @ 2016-04-08 13:42 飞鸟各投林 阅读(163) 评论(0) 推荐(0) 编辑

吴超老师课程--Hive的执行语句

摘要: 为什么选择Hive? (1)基于Hadoop的大数据的计算/扩展能力(2)支持SQL like查询语言(3)统一的元数据管理(4)简单编程 一:Hive的数据类型(1)基本数据类型tinyint/smallint/int/bigintfloat/doublebooleanstring(2)复杂数据类 阅读全文

posted @ 2016-04-08 01:03 飞鸟各投林 阅读(298) 评论(0) 推荐(0) 编辑

吴超老师课程--Hive的介绍和安装

摘要: 1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的 阅读全文

posted @ 2016-04-08 01:00 飞鸟各投林 阅读(230) 评论(0) 推荐(0) 编辑