随笔分类 - [89]Big Data
-
Kafka 协议实现中的内存优化
摘要:Kafka 协议实现中的内存优化 Kafka 协议实现中的内存优化 Jusfr 原创,转载请注明来自博客园 Request 与 Response 的响应格式 Request 与 Response 都是以 长度+内容 形式描述, 见于 A Guide To The Kafka Protocol Req 阅读全文
-
Kafka 高性能吞吐揭秘
摘要:Kafka 高性能吞吐揭秘 Kafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分功能特性的同时,还提供了超一流的读写性能。本文将针对Kafka性能方面进行简单分析,首先简单介绍一下Ka 阅读全文
-
Kafka - SQL 引擎
摘要:Kafka - SQL 引擎分享 1.概述 大多数情况下,我们使用 Kafka 只是作为消息处理。在有些情况下,我们需要多次读取 Kafka 集群中的数据。当然,我们可以通过调用 Kafka 的 API 来完成,但是针对不同的业务需求,我们需要去编写不同的接口,在经过编译,打包,发布等一系列流程。最 阅读全文
-
SPARK如何使用AKKA实现进程、节点通信
摘要:SPARK如何使用AKKA实现进程、节点通信 《深入理解Spark:核心思想与源码分析》一书前言的内容请看链接《深入理解SPARK:核心思想与源码分析》一书正式出版上市 《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章 环境准备》 《深入理解Spark:核心思想与源码分析》 阅读全文
-
大规模集群管理工具Borg
摘要:Google的大规模集群管理工具Borg 概述 Google的Borg系统是一个集群管理工具,在它上面运行着成千上万的job,这些job来自许许多多不同的应用,并且跨越多个集群,而每个集群又由大量的机器构成。 Borg通过组合准入控制,高效的任务打包,超额负载以及基于进程级别性能隔离的机器共享从而实 阅读全文
-
Apache的Mesos和Google的Kubernetes 有什么区别?
摘要:Apache的Mesos和Google的Kubernetes 有什么区别?本文来自StackOverFlow上的一个问题,主要讨论Mesos和Kubernetes的区别,相信我们很多人也有同意的疑问。 Kubernetes的开发者Craig回答了这个问题,同时masi也做了概述,不一定对,供读者参考 阅读全文
-
Mesos和kubernetes
摘要:Mesos和kubernetes http://dockone.io/article/956我坚定地认为,下一年里,它们的使用增长会更快,因此是时候回顾总结,为2016年做好准备了。本文我想讨论Mesos和Kubernetes的现状,并且列举出优势和劣势,让大家能够理解集群管理器的概念。 Mesos 阅读全文
-
流式大数据处理的三种框架:Storm,Spark和Samza
摘要:流式大数据处理的三种框架:Storm,Spark和Samza 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Ap 阅读全文
-
Spark的分布式计算
摘要:Spark,Spark是什么,如何使用Spark 1.Spark基于什么算法的分布式计算(很简单) 2.Spark与MapReduce不同在什么地方 3.Spark为什么比Hadoop灵活 4.Spark局限是什么 5.什么情况下适合使用Spark 什么是Spark Spark是UC Berkele 阅读全文
-
Kafka简介
摘要:Kafka简介在当前的大数据时代,第一个挑战是海量数据的收集,另一个就是这些数据的分析。数据分析的类型通常有用户行为数据、应用性能跟踪数据、活动数据日志、事件消息等。消息发布机制用于连接各种应用并在它们之间路由消息,例如通过message broker。Kafka是快速地将海量信息实时路由到消费者的... 阅读全文
-
分布式计算
摘要:分布式计算阅读目录:介绍利用分片算法利用消息队列Hadoop简介MapReduce离线计算介绍分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中分析异常信号(外星文明),淘宝双十一实时计算各... 阅读全文
-
Spark
摘要:Spark及其生态圈简介注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、简介1.1Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在... 阅读全文
-
Hadoop之环境搭建
摘要:初学Hadoop之环境搭建阅读目录1、安装CentOS72、安装JDK1.7.03、安装Hadoop2.6.04、SSH无密码登陆 本文仅作为学习笔记,供大家初学Hadoop时学习参考。初学Hadoop,欢迎有经验的朋友进行指导与交流!1、安装CentOS7准备 CentOS系统镜像CentOS... 阅读全文
-
让Docker功能更强大的10个开源工具
摘要:让Docker功能更强大的10个开源工具更好的管理、Web前端程序、更深入地了解容器应用程序,Docker生态系统正在迅速发展,这还得归功于其充满活力的开源社区。软件项目的成功常常根据其催生的生态系统来衡量。围绕或基于核心技术构建的项目增添了功能和易用性,它们常常日臻完善。Docker就是一个典例,... 阅读全文
-
Docker 管理工具 Shipyard
摘要:Docker 管理工具ShipyardShipyard 是一个基于 Web 的Docker管理工具,支持多 host,可以把多个 Docker host 上的 containers 统一管理;可以查看 images,甚至 build images;并提供 RESTful API 等等。 Shipya... 阅读全文
-
为什么机器可以学习(2)
摘要:为什么机器可以学习(2)转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html目录机器学习基石笔记1——在何时可以使用机器学习(1)机器学习基石笔记2——在何时可以使用机器学习(2)机器学习基石笔记3——在何时可以使用机器学习(3)(修改版)... 阅读全文
-
Hadoop-2.4.1完全分布式环境搭建
摘要:Hadoop-2.4.1完全分布式环境搭建Hadoop-2.4.1完全分布式环境搭建一、配置步骤如下:主机环境搭建,这里是使用了5台虚拟机,在ubuntu 13系统上进行搭建hadoop环境。创建hadoop用户组以及hadoop用户,并给hadoop用户分配权限。免密码登陆,为5台主机进行免密码登... 阅读全文
-
hadoop搭建开发环境及编写Hello World
摘要:hadoop搭建开发环境及编写Hello World本文地址:http://www.cnblogs.com/archimedes/p/hadoop-helloworld.html,转载请注明源地址。1、下载整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用java方便进入网... 阅读全文
-
Redis3
摘要:Redis到底该如何利用上两篇受益匪浅,秉着趁热打铁,不挖到最深不罢休的精神,我决定追加这篇。上一篇里最后我有提到实现分级缓存管理应该是个可行的方案,因此今天特别实践了一下。不过缓存分级之后也发现了一些问题,例如下图:当appServerA修改了数据,并同步到Redis/DB之后,如何让appSer... 阅读全文
-
大数据,且行且思
摘要:大数据,且行且思--扫盲什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。大数据的4V特征-来源公司的“大数据”随着公司业务的增长,大量... 阅读全文