摘要:
2015.08.12Storm 一、Storm简介 Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。 Storm能实现高频数据和大规模数据的实时处理。 官网资料显示storm的一个节点在1秒钟能够处理100万个100字节的消息(IntelE5645@2.4Ghz的CPU,24GB的内存) (storm +kafka+flume) 二、HADOOP与STOR... 阅读全文
摘要:
2015.08.16zookepper Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务(如同小区里面的供水、电的系统) 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等(在大数据框架后面默默地工作,它可以完成大数据计算框架在它们主要业务外的辅助性业务) Zookepper的角色 数据同步的工具... 阅读全文
摘要:
一、redis简介 Redis是一种面向"键/值"对数据类型的内存数据库,可以满足我们对海量数据的读写需求。 redis的键只能是字符串 redis的值支持多种数据类型: 1:字符串 string 2:哈希 hash 3:字符串列表 list 4:字符串集合 set 不重复(只用于string),无 阅读全文
摘要:
1.Docker基本概念 Docker运行在Linux,需要git技能 docker官网解析 来源于容器又不仅仅是容器,第一个版本基于LXC,远远超过容器概念 交付时拿到的是镜像,直接run运行想要的应用程序 持续集成持续交付更加普及 秒级启动,可轻易获取 可忽略与应用无关的操作,用dockerfile就可以构建一模一样的镜像,平民技术 2.Docker实现原理... 阅读全文
摘要:
2016.07.14 1-Spark实战演练:Spark概述及生态环境 2.Spark实战演练:Spark vs Hadoop MapReduce 任意一条边有方向且不存在环路的图,一次执行所有这些图的任务节点,而不需要一个个按照顺序来进行,这个方案避免了mapreduce中麻烦的同步问题,应用程序构建简单。 创新:1支持跨DAG的内存数据分享,不同任务处理相同的数据 2支... 阅读全文