博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2015年5月4日

摘要: 在大数据时代,数据规模变得越来越大。由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集、管理和处理。本文主要介绍如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统,以及这个过程中主要遭遇的一些挑战。实践主要立足建立一套汽车状态实时... 阅读全文

posted @ 2015-05-04 22:09 xymaqingxiang 阅读(3594) 评论(1) 推荐(0) 编辑

摘要: Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,... 阅读全文

posted @ 2015-05-04 21:47 xymaqingxiang 阅读(273) 评论(0) 推荐(0) 编辑

摘要: 摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理、优势、运作机制和配置方法等;着重介绍新的Yarn框架相对于原框架的差异及改进。编者按:对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop... 阅读全文

posted @ 2015-05-04 20:43 xymaqingxiang 阅读(695) 评论(0) 推荐(0) 编辑

摘要: Hadoop很强大,但企业在使用Hadoop或者大数据之前,首先要明确自己的目标,再确定是否选对了工具,毕竟Hadoop不是万能的!本文中列举了几种不适合使用Hadoop的场景。随着Hadoop应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大... 阅读全文

posted @ 2015-05-04 20:41 xymaqingxiang 阅读(365) 评论(0) 推荐(0) 编辑

摘要: CSDN大数据技术:十位一线专家分享Spark现状与未来(一)十位一线专家分享Spark现状与未来(二)十位一线专家分享Spark现状与未来(三)部分摘录:加州大学伯克利分校AMP实验室博士Matei Zaharia:Spark的现状和未来 ----(Matei Zaharia是加州大学伯克利分校A... 阅读全文

posted @ 2015-05-04 18:52 xymaqingxiang 阅读(651) 评论(0) 推荐(0) 编辑