随笔分类 - [89]Big Data
-
flume
摘要:flume 1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过 阅读全文
-
TensorFlow文本与序列的深度模型
摘要:TensorFlow深度学习笔记 文本与序列的深度模型 Deep Models for Text and Sequence 转载请注明作者:梦里风林Github工程地址:https://github.com/ahangchen/GDLnotes欢迎star,有问题可以到Issue区讨论官方教程地址视 阅读全文
-
实时计算平台
摘要:实时计算平台中的弹性集群资源管理 本文系微博运维数据平台(DIP)在实时计算平台的研发过程中集群资源管理方面的一些经验总结和运用,主要关注以下几个问题: 异构资源如何整合? 实时计算应用之间的物理资源如何隔离? 集群资源利用率如何提高? 集群运维成本如何降低? 1. 背景 这是我们初期的一个实时计算 阅读全文
-
spark集群安装配置
摘要:spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出和结果 阅读全文
-
Apache Flink
摘要:Flink 剖析 1.概述 在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷。今天给大家分享一款产品—— Apache Flink,目前,已是 Apache 顶级项目之一。那么,接下来,笔者为大家介绍Flink 的相关内容。 2.内容 2.1 What's Flink Apache F 阅读全文
-
Kafka基本原理
摘要:Kafka基本原理 简介 Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 Kafka架构 它的架构包括以下组件: 话题(Topic):是特定类 阅读全文
-
rsyslog+LogAnalyzer 日志收集
摘要:Linux 之rsyslog+LogAnalyzer 日志收集系统 一、LogAnalyzer介绍 LogAnalyzer工具提供了一个易于使用,功能强大的前端,用于搜索,查看和分析网络活动数据,包括系统日志,事件日志和其他许多日志源。由于它只是将数据展示到我们用户的面前,所以数据本身需要由另一个程 阅读全文
-
Flume+LOG4J+Kafka
摘要:基于Flume+LOG4J+Kafka的日志采集架构方案 本文将会介绍如何使用 Flume、log4j、Kafka进行规范的日志采集。 Flume 基本概念 Flume是一个完善、强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说明不再详细赘述。Flume包含Source 阅读全文
-
大数据学习资源
摘要:大数据学习资源汇总 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所 阅读全文
-
ZooKeeper安装与运行
摘要:ZooKeeper安装与运行 首先从官网下载ZooKeeper压缩包,然后解压下载得到的ZooKeeper压缩包,发现有“bin,conf,lib”等目录。“bin目录”中存放有运行脚本;“conf目录”中存放有配置文件;“lib目录”中存放有运行所需要第三方库。 一、standalone模式 1. 阅读全文
-
ZooKeeper的安装、配置、启动和使用(一)——单机模式
摘要:ZooKeeper的安装、配置、启动和使用(一)——单机模式 ZooKeeper的安装非常简单,它的工作模式分为单机模式、集群模式和伪集群模式,本博客旨在总结ZooKeeper单机模式下如何安装、配置、启动和使用: 一、安装配置ZooKeeper(在Windows操作系统下) a、下载ZooKeep 阅读全文
-
Zookeeper安装
摘要:Zookeeper安装部署 1. 安装 2. 单实例配置 修改配置文件 增加内存 zkEnv.sh zkEnv.sh 查询内存大小 3. 集群配置 注意:其中data目录和server地址需改成你真实部署机器的信息 修改配置文件 增加myid文件 并在data目录下放置myid文件:(上面zoo.c 阅读全文
-
管理工具 Kafka Manager
摘要:管理工具 Kafka Manager 一、概述 Kafka在雅虎内部被很多团队使用,媒体团队用它做实时分析流水线,可以处理高达20Gbps(压缩数据)的峰值带宽。 为了简化开发者和服务工程师维护Kafka集群的工作,构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这 阅读全文
-
分布式发布订阅消息系统Kafka
摘要:高吞吐量的分布式发布订阅消息系统Kafka--安装及测试 一、Kafka概述 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过 阅读全文
-
OpenStack25
摘要:OpenStack(25) API 前端服务 每个 OpenStack 组件可能包含若干子服务,其中必定有一个 API 服务负责接收客户请求。 以 Nova 为例,nova-api 作为 Nova 组件对外的唯一窗口,向客户暴露 Nova 能够提供的功能。 当客户需要执行虚机相关的操作,能且只能向 阅读全文
-
日志收集之kafka
摘要:日志收集之kafka http://www.jianshu.com/p/f78b773ddde5 一、介绍 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能 高吞吐率。即使在非 阅读全文
-
开发测试时给 Kafka 发消息的 UI 发送器――Mikasa
摘要:开发测试时给 Kafka 发消息的 UI 发送器――Mikasa 说来话长,自从入了花瓣,整个人就掉进连环坑了。 后端元数据采集是用 Storm 来走拓扑流程的,又因为 @Zola 不是很喜欢 Java,所以退而求其次选择了 Clojure,所以正在苦逼地学习 Clojure 和 Storm 中。 阅读全文
-
集群环境
摘要:集群环境 公司给分配了3台新的虚拟机,打算从头配置一下zookeeper,kafka,storm,hadoop,hbase的环境。 (以后配置mongodb,spark的时候,在陆续更新,目前(2016/4/21)只接触这么多) 配置的过程中发生了一些问题。这里共享一下笔记。当然,我做配置的时候的原 阅读全文
-
HADOOP2.6
摘要:LINUX下HADOOP2.6.0集群环境的搭建 本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用。 基础环境 JDK的安装与配置 现在直接到Oracle官网(http://www.oracle.com/)寻找JDK7的安 阅读全文
-
Net Kafka
摘要:Net Kafka Kafka 协议实现中的内存优化 Jusfr 2016-04-18 08:28 阅读:241 评论:1 Kafka API: TopicMetadata Jusfr 2016-03-09 10:57 阅读:101 评论:1 Kafka API: TopicMetadata Jus 阅读全文