随笔档案「2016年4月8日」：淘宝分布式数据处理实践 ... - 飞鸟各投林

淘宝分布式数据处理实践

摘要：淘宝望目前有会员2亿左右，日均UV高达4000万，日交易量高达数亿元，每天产生大量的数据，所以部署了一个大规模的Hadoop集群，此集群规模为： 1.总容量为9.3PB，利用率77.09%。 2.共有1100台机器。 3.Master：8CPU，48GB内存，SAS Raid。 4.Slave节点异阅读全文

posted @ 2016-04-08 22:00 飞鸟各投林阅读(283) 评论(0) 推荐(0)

Hadoop的分布式架构改进与应用

摘要： 1. 背景介绍谈到分布式系统，就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。虽然Google没有开源这三个技术的实现源码，但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品：HDFS 阅读全文

posted @ 2016-04-08 21:52 飞鸟各投林阅读(355) 评论(0) 推荐(0)

Hadoop十年解读与发展预测

摘要：编者按：Hadoop于2006年1月28日诞生，至今已有10年，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。在2016年Hadoop十岁生日之际，InfoQ策划了一个Hadoop热点系列文章，为大家梳理Hadoop这十年的变阅读全文

posted @ 2016-04-08 18:58 飞鸟各投林阅读(643) 评论(0) 推荐(0)

吴超老师课程--Flume的安装和介绍

摘要：常用的分布式日志收集系统一：flume概述参考官方网址：http://flume.apache.org/documentation.htmlflume是一个分布式的数据收集系统，具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快，完全可以用于生产环境。flume的核心是agent。age 阅读全文

posted @ 2016-04-08 14:12 飞鸟各投林阅读(317) 评论(0) 推荐(0)

吴超老师课程--Sqoop的安装和介绍

摘要： SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中一：安装步骤1.解压、设置环境变量，略2.把mysql.............ja 阅读全文

posted @ 2016-04-08 13:42 飞鸟各投林阅读(168) 评论(0) 推荐(0)

吴超老师课程--Hive的执行语句

摘要：为什么选择Hive？（1）基于Hadoop的大数据的计算/扩展能力（2）支持SQL like查询语言（3）统一的元数据管理（4）简单编程一：Hive的数据类型(1)基本数据类型tinyint/smallint/int/bigintfloat/doublebooleanstring(2)复杂数据类阅读全文

posted @ 2016-04-08 01:03 飞鸟各投林阅读(309) 评论(0) 推荐(0)

吴超老师课程--Hive的介绍和安装

摘要： 1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据，同时可以查询hadoop中的数据。本质上讲，hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具，可以把SQL转换为MapReduce中的阅读全文

posted @ 2016-04-08 01:00 飞鸟各投林阅读(245) 评论(0) 推荐(0)

飞鸟各投林

导航