2015 年 5月 4 日随笔档案 - xymaqingxiang

Storm实战：在云上搭建大规模实时数据流处理系统（Storm+Kafka）

摘要：在大数据时代，数据规模变得越来越大。由于数据的增长速度和非结构化的特性，常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集、管理和处理。本文主要介绍如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统，以及这个过程中主要遭遇的一些挑战。实践主要立足建立一套汽车状态实时... 阅读全文

posted @ 2015-05-04 22:09 xymaqingxiang 阅读(3598) 评论(1) 推荐(0) 编辑

浅谈Apache Spark的6个发光点(CSDN)

摘要： Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发，其核心部分的代码只有63个Scala文件，非常轻量级。Spark提供了与Hadoop相似的开源集群计算环境，但基于内存和迭代优化的设计，... 阅读全文

posted @ 2015-05-04 21:47 xymaqingxiang 阅读(273) 评论(0) 推荐(0) 编辑

更快、更强——解析Hadoop新一代MapReduce框架Yarn（CSDN）

摘要：摘要：本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架（Yarn)原理、优势、运作机制和配置方法等；着重介绍新的Yarn框架相对于原框架的差异及改进。编者按：对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop... 阅读全文

posted @ 2015-05-04 20:43 xymaqingxiang 阅读(696) 评论(0) 推荐(0) 编辑

Hadoop虽然强大，但不是万能的(CSDN)

摘要： Hadoop很强大，但企业在使用Hadoop或者大数据之前，首先要明确自己的目标，再确定是否选对了工具，毕竟Hadoop不是万能的！本文中列举了几种不适合使用Hadoop的场景。随着Hadoop应用的不断拓展，使很多人陷入了对它的盲目崇拜中，认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大... 阅读全文

posted @ 2015-05-04 20:41 xymaqingxiang 阅读(365) 评论(0) 推荐(0) 编辑

十位一线专家分享Spark现状与未来----峰会摘录

摘要： CSDN大数据技术：十位一线专家分享Spark现状与未来（一）十位一线专家分享Spark现状与未来（二）十位一线专家分享Spark现状与未来（三）部分摘录：加州大学伯克利分校AMP实验室博士Matei Zaharia：Spark的现状和未来 ----（Matei Zaharia是加州大学伯克利分校A... 阅读全文

posted @ 2015-05-04 18:52 xymaqingxiang 阅读(651) 评论(0) 推荐(0) 编辑

馬努的学习之路

公告

Storm实战：在云上搭建大规模实时数据流处理系统（Storm+Kafka）

浅谈Apache Spark的6个发光点(CSDN)

更快、更强——解析Hadoop新一代MapReduce框架Yarn（CSDN）

Hadoop虽然强大，但不是万能的(CSDN)

十位一线专家分享Spark现状与未来----峰会摘录