博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  分布式、大数据存储、大数据处理

摘要:storm 原理简介及单机版安装指南本文翻译自:https://github.com/nathanmarz/storm/wiki/Tutorial原文链接自:http://www.open-open.com/lib/view/open1417653922886.html阅读目录1、准备工作2、一个S... 阅读全文

posted @ 2015-04-13 21:12 xymaqingxiang 阅读(221) 评论(0) 推荐(0) 编辑

摘要:如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。本文介绍了一些大数据方面的顶级开源工具,分为四个领域:数据存储,开发平台,开发工具和集成,分析和报告工具。 随着大数据与预测分析的成熟,开源作为底层技术授权解决方案的最大贡献者的优势越来越明显。 如今,从... 阅读全文

posted @ 2015-04-13 20:04 xymaqingxiang 阅读(276) 评论(0) 推荐(0) 编辑

摘要:最简单的JStorm例子分为以下几个步骤:1、生成Topology 1 Map conf = new HashMp(); 2 //topology所有自定义的配置均放入这个Map 3 4 TopologyBuilder builder = new TopologyBuilder(); 5 //创建... 阅读全文

posted @ 2015-04-09 11:24 xymaqingxiang 阅读(2598) 评论(0) 推荐(0) 编辑

摘要:1、开发经验总结——12 Sep 2014·8 revisions在jstorm中, spout中nextTuple和ack/fail运行在不同的线程中, 从而鼓励用户在nextTuple里面执行block的操作, 原生的storm,nextTuple和ack/fail在同一个线程,不允许nextT... 阅读全文

posted @ 2015-04-09 10:21 xymaqingxiang 阅读(4685) 评论(0) 推荐(0) 编辑

摘要:Nimbus HA feature is quite important for our application running on the storm cluster. So, we've been working on the problem for some time and now a... 阅读全文

posted @ 2015-04-08 17:35 xymaqingxiang 阅读(406) 评论(0) 推荐(0) 编辑

摘要:一、Kafka+Storm+HDFS整合实践本文导读:1 前言2 Kafka安装配置3 Storm安装配置4 整合Kafka+Storm5 整合Storm+HDFS6 整合Kafka+Storm+HDFS7 参考链接参考链接:大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组... 阅读全文

posted @ 2015-04-08 16:05 xymaqingxiang 阅读(322) 评论(0) 推荐(0) 编辑

摘要:本文导读:——JStorm之Nimbus简介1、简介2、系统框架与原理3、实现逻辑和代码剖析 1)Nimbus启动 2)Topology提交 3)任务调度 4)任务监控4、结束语5、参考文献附:JStorm之NimbusServer启动流程一、简介 JStorm集群包含两类... 阅读全文

posted @ 2015-04-07 12:21 xymaqingxiang 阅读(1387) 评论(0) 推荐(0) 编辑

摘要:本文导读:1 Kafka简介2 Kafka设计 + 设计要点3 Kafka应用场景4 参考资料(推荐)分布式消息系统:KafkaKafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它... 阅读全文

posted @ 2015-04-03 11:40 xymaqingxiang 阅读(571) 评论(0) 推荐(0) 编辑

摘要:分布式服务框架:Zookeeper(分布式系统的可靠协调系统) 本文导读:1 Zookeeper概述2 Zookeeper总体结构 ——逻辑图、运转流程、特点、优点、数据结构3 Zookeeper应用场景Zookeeper概述: Zookeeper是一个高性能,分布式的,开源分布式应用协调服务。... 阅读全文

posted @ 2015-04-03 11:38 xymaqingxiang 阅读(656) 评论(0) 推荐(0) 编辑

摘要:本文导读:1、What——JStorm是什么? 1.1 概述 1.2优点 1.3应用场景 1.4JStorm架构2、Why——为什么启动JStorm项目?(与storm的区别) 2.1storm的现状、缺陷 2.2JStorm比Storm更稳定,功能更强大,更快!... 阅读全文

posted @ 2015-04-03 11:35 xymaqingxiang 阅读(13575) 评论(0) 推荐(1) 编辑

摘要:关于Storm的高可用,有以下几个方面: (1)数据利用阶段可以通过ACK机制保证数据被处理; (2)在进程级别,worker失效,supervisor会自动重启worker线程; (3)在组件级别,supervisor节点失效,会在其他节点重启该supervisor任务; 但是一个很大... 阅读全文

posted @ 2015-04-03 11:10 xymaqingxiang 阅读(2248) 评论(0) 推荐(0) 编辑

摘要:大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好 的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:... 阅读全文

posted @ 2015-04-02 21:06 xymaqingxiang 阅读(527) 评论(0) 推荐(0) 编辑

摘要:徐明明博客:Twitter Storm源代码分析之ZooKeeper中的目录结构 我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper上面写状态信息来分配任务,supervisor,task通过从zookeeper中读状态来领取任... 阅读全文

posted @ 2015-04-02 16:12 xymaqingxiang 阅读(350) 评论(0) 推荐(0) 编辑

摘要:Storm分布式实时流计算框架相关技术总结 Storm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍。以此为基础,后续再深入了解Storm的内部实现细节。1. Zookeeper集群 Zookeeper是一个针对大型分布式系统... 阅读全文

posted @ 2015-04-02 16:03 xymaqingxiang 阅读(360) 评论(0) 推荐(0) 编辑

摘要:Storm配置项详解 ——阿里数据平台技术博客:storm配置项详解什么是Storm?Storm是twitter开源的一套实时数据处理框架,基于该框架你可以通过简单的编程来实现对数据流的实时处理变换。Storm的配置文件一般存放在$STORM_HOME/conf下,通常名为storm.yaml,它... 阅读全文

posted @ 2015-03-31 21:12 xymaqingxiang 阅读(1129) 评论(0) 推荐(0) 编辑

摘要:Storm UI ——本文主要解释下storm ui上各项属性的含义。通过http://UI_Server:8080可以打开Storm Web UI看看Storm集群的状态。1. mainpage 首页主要分为3块: a. Cluster Summary version:stor... 阅读全文

posted @ 2015-03-31 20:59 xymaqingxiang 阅读(1830) 评论(0) 推荐(0) 编辑

摘要:Storm on YARN: Storm on YARN被视为大规模Web应用与传统企业应用之间的桥梁。它将Storm事件处理平台与YARN(Yet Another Resource Negotiator)应用管理框架进行了组合,为此前进行批处理的Hadoop应用提供了低延迟的处理能力。诞生背景(... 阅读全文

posted @ 2015-03-31 18:56 xymaqingxiang 阅读(1010) 评论(0) 推荐(0) 编辑

摘要:Storm与Spark:谁才是我们的实时处理利器 ——实时商务智能目前已经逐步迈入主流,而Storm与Spark开源项目的支持无疑在其中起到了显著的推动作用。那么问题来了:实时处理到底哪家强? 实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面)。然而... 阅读全文

posted @ 2015-03-31 16:45 xymaqingxiang 阅读(416) 评论(0) 推荐(0) 编辑

摘要:Hadoop 2.0 NameNode HA和Federation实践Posted on2012/12/10一、背景 天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都... 阅读全文

posted @ 2015-03-30 22:33 xymaqingxiang 阅读(304) 评论(0) 推荐(0) 编辑

摘要:Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。 令人欣... 阅读全文

posted @ 2015-03-30 17:18 xymaqingxiang 阅读(591) 评论(0) 推荐(1) 编辑