摘要:
如官方文档中所说: 1、点击进入boot2docker/osx-installer release页面。 2、在下载页面中点击 Boot2Docker-x.x.x.pkg 来下载 Boot2Docker 3、将Boot2Docker-x.x.x安装在Application中。 4、启动boot2Do 阅读全文
摘要:
Spark Streaming 编程指南 Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (DStreams) Input DStreams and R 阅读全文
摘要:
apache原文地址:http://zookeeper.apache.org/doc/trunk/zookeeperOver.htmlZooKeeperZooKeeper: A Distributed Coordination Service for Distributed Applications... 阅读全文
摘要:
OverviewThis documentation is for Apache Flink version 1.0-SNAPSHOT, which is the current development version of the next upcoming major release of Ap... 阅读全文
摘要:
这篇文档描述了Flink的流式计算的容错机制IntroductionCheckpointingBarriersStateExactly Once vs. At Least OnceRecovery简介Flink提供容错机制来对应用数据流提供持续的恢复。这个机制保证了即使在出现错误的情况下,记录也只会... 阅读全文
摘要:
Flink 的流数据 API 编程指南Flink 的流数据处理程序是常规的程序 ,通过再流数据上,实现了各种转换 (比如 过滤, 更新中间状态, 定义窗口, 聚合)。流数据可以来之多种数据源 (比如, 消息队列, socket 流, 文件). 通过sink组件落地流计算的最终结果,比如可以把数据落地... 阅读全文
摘要:
上一篇《任务调度具体算法的补充》,包括 cpmpute->executors、get-alive-assigned-node+port -> executors、sort-slots、bad-slots 阅读全文
摘要:
3种Scheduler概述EventScheduler:将系统中的可用资源均匀地分配给需要资源的topology,其实也不是绝对均匀,后续会详细说明DefaultScheduler:和EvenetScheduler差不多,只不过会先将其它topology不需要的资源重新收集起来,再进行EventSc... 阅读全文
摘要:
海量数据,找出最热门(频率最高)的某一数据,或前100的数据。一般情况下数据大小几百个G,而内存限制就1个G,完成计算。应用场景: (1)海量日志数据,提取出某日访问百度次数最多的那个IP; (2)搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来, 假设目前有一千万个记录(这些查询... 阅读全文
摘要:
理清一下worker、executor、task、supervisor、nimbus、zk这几个之间的关系先来看一张图(图片来自:http://www.cnblogs.com/foreach-break/p/storm_worker_executor_spout_bolt_simbus_superv... 阅读全文