博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  分布式、大数据存储、大数据处理

摘要:在Linux终端直接输入storm,不带任何参数信息,或者输入storm help,可以查看storm命令行客户端(Command line client)提供的帮助信息。Storm 0.9.0.1版本在Linux终端直接输入storm后的输出内容如下:Commands:activateclassp... 阅读全文

posted @ 2015-05-15 09:39 xymaqingxiang 阅读(1866) 评论(0) 推荐(0) 编辑

摘要:问题导读:1.你认为什么图形可以显示hadoop与storm的区别?(电梯)2.本文是如何形象讲解hadoop与storm的?(离线批量处理、实时流式处理)3.hadoop map/reduce对应storm那两个概念?(spout/bolt)4.storm流由谁来组成?(Tuples)5.tupl... 阅读全文

posted @ 2015-05-12 21:26 xymaqingxiang 阅读(605) 评论(0) 推荐(0) 编辑

摘要:程学旗先生是中科院计算所副总工、研究员、博士生导师、网络科学与技术重点实验室主任。本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享。大数据的发展越来越快,但是对于大数据的认知大都还停留在最初的阶段——大数据是一类资源、一类工具,其实“大数据”更多的体现的是一个认知和思维,是一种战略、认知和... 阅读全文

posted @ 2015-05-05 09:53 xymaqingxiang 阅读(503) 评论(0) 推荐(0) 编辑

摘要:Hadoop科普文——常见的45个问题解答1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2.单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过... 阅读全文

posted @ 2015-05-05 09:45 xymaqingxiang 阅读(348) 评论(0) 推荐(0) 编辑

摘要:大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望:追本溯源,悉大数据六大技术变迁伴随着大数据技术大会的发展,我们亲历了中国大数据技术与应用时代的到来,也见证了整个大数据生态圈技术的发展与衍变:1. 计算资源的分布化——从... 阅读全文

posted @ 2015-05-05 09:40 xymaqingxiang 阅读(776) 评论(0) 推荐(0) 编辑

摘要:在大数据时代,数据规模变得越来越大。由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集、管理和处理。本文主要介绍如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统,以及这个过程中主要遭遇的一些挑战。实践主要立足建立一套汽车状态实时... 阅读全文

posted @ 2015-05-04 22:09 xymaqingxiang 阅读(3600) 评论(1) 推荐(0) 编辑

摘要:Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,... 阅读全文

posted @ 2015-05-04 21:47 xymaqingxiang 阅读(273) 评论(0) 推荐(0) 编辑

摘要:摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理、优势、运作机制和配置方法等;着重介绍新的Yarn框架相对于原框架的差异及改进。编者按:对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop... 阅读全文

posted @ 2015-05-04 20:43 xymaqingxiang 阅读(698) 评论(0) 推荐(0) 编辑

摘要:Hadoop很强大,但企业在使用Hadoop或者大数据之前,首先要明确自己的目标,再确定是否选对了工具,毕竟Hadoop不是万能的!本文中列举了几种不适合使用Hadoop的场景。随着Hadoop应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大... 阅读全文

posted @ 2015-05-04 20:41 xymaqingxiang 阅读(365) 评论(0) 推荐(0) 编辑

摘要:CSDN大数据技术:十位一线专家分享Spark现状与未来(一)十位一线专家分享Spark现状与未来(二)十位一线专家分享Spark现状与未来(三)部分摘录:加州大学伯克利分校AMP实验室博士Matei Zaharia:Spark的现状和未来 ----(Matei Zaharia是加州大学伯克利分校A... 阅读全文

posted @ 2015-05-04 18:52 xymaqingxiang 阅读(653) 评论(0) 推荐(0) 编辑

摘要:提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。背景篇Hado... 阅读全文

posted @ 2015-04-30 12:32 xymaqingxiang 阅读(520) 评论(0) 推荐(0) 编辑

摘要:ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得zookeeper能够应用于很多场景。zk的使用场景进行归类介绍:场景类别典型场景描述(ZK特性,使用方法)应用中的具体使用数据发布与订阅... 阅读全文

posted @ 2015-04-29 17:03 xymaqingxiang 阅读(362) 评论(0) 推荐(0) 编辑

摘要:Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,以及分析... 阅读全文

posted @ 2015-04-29 12:16 xymaqingxiang 阅读(475) 评论(0) 推荐(0) 编辑

摘要:对于Storm,它有一个很重要的特性:“Guarantee no data loss” ——可靠性很显然,要做到这个特性,必须要track每个data的去向和结果。Storm是如何做到的呢——acker机制。先概括下acker所参与的工作流程:Spout创建一个新的Tuple时,会发一个消息通知ac... 阅读全文

posted @ 2015-04-19 09:56 xymaqingxiang 阅读(1613) 评论(0) 推荐(0) 编辑

摘要:Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。 如果你已经有十次输入同样的Ant targets来编译你的代码、jar或者war、生成javadocs,你一定会自问,是否有一个重复性更少却能同样完成该工作的方法。Maven便提供了... 阅读全文

posted @ 2015-04-17 22:14 xymaqingxiang 阅读(290) 评论(0) 推荐(0) 编辑

摘要:许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(ma... 阅读全文

posted @ 2015-04-17 02:09 xymaqingxiang 阅读(428) 评论(0) 推荐(0) 编辑

摘要:Netty简介: Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。 Netty 是一个基于NIO的客户,服务器端编程框架,使用Netty 可以确保你快速和简单的开发出一个网络应用,例... 阅读全文

posted @ 2015-04-17 01:57 xymaqingxiang 阅读(304) 评论(0) 推荐(0) 编辑

摘要:thrift框架总结,可伸缩的跨语言服务开发框架前言:目前流行的服务调用方式有很多种,例如基于 SOAP 消息格式的 Web Service,基于 JSON 消息格式的 RESTful 服务等。其中所用到的数据传输方式包括 XML,JSON 等,然而 XML 相对体积太大,传输效率低,JSON 体积... 阅读全文

posted @ 2015-04-14 22:29 xymaqingxiang 阅读(338) 评论(0) 推荐(0) 编辑

摘要:本文导读:Component全家谱结构图Spout分析 ——类图 ——分析(接口实现)、结论 ——可靠的与不可靠的消息(推荐)Bolt分析 ——类图 ——分析(接口实现)、结论 ——可靠的与不可靠的Bolt(推荐)Component: Storm中,Spout和Bolt都是其Compo... 阅读全文

posted @ 2015-04-14 15:45 xymaqingxiang 阅读(5968) 评论(0) 推荐(0) 编辑

摘要:摘自维基百科,原链接为:http://zh.wikipedia.org/zh/LISP因为Clojure是Lisp的一种的方言,所以我们可以先来了解一下Lisp这个比较小众的编程到底是什么~-------------------------------------------------------... 阅读全文

posted @ 2015-04-14 11:00 xymaqingxiang 阅读(2619) 评论(0) 推荐(0) 编辑