11 2015 档案
摘要:原文链接:http://www.blogjava.net/ivanwan/archive/2011/06/15/352350.html因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如...
阅读全文
摘要:原文链接:开启hadoop和Hbase集群的lzo压缩功能 问题导读:1.如何启动hadoop、hbase集群的压缩功能?2.lzo的作用是什么?3.hadoop配置文件需要做哪些修改?首先我们明白一个概念:LZO 是致力于解压速度的一种数据压缩算法,LZO 是 Lempel-Ziv-Oberhum...
阅读全文
摘要:原文链接:HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating ...
阅读全文
摘要:程序如下:import org.apache.spark.sql.Row;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS...
阅读全文
摘要:代码如下:import org.apache.spark.sql.Row;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS...
阅读全文
摘要:原文链接:Spark中加载本地(或者hdfs)文件以及SparkContext实例的textFile使用 默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读 本地文件读取 sc.textFile("路径").在路径...
阅读全文
摘要:详细配置文件flume-conf.properties如下:############################################# producer config############################################agent sectionp...
阅读全文
摘要:java代码如下:package db.query;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.apache.hadoop.conf.Configurati...
阅读全文
摘要:java代码如下:package db.insert;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.spark.SparkConf;import org.apache.spark.api.ja...
阅读全文
摘要:java代码如下:package db.insert;/* * 创建一个students表,并进行相关操作 */import java.io.IOException;import java.io.Serializable;import java.util.ArrayList;import java....
阅读全文
摘要:原文链接:HBase入门基础教程在本篇文章中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面。搭建HBase伪分布式环境的前提是我们已经搭建好了Hadoop完全分布式环境,搭建Hadoop环境请参考:【Hadoop入门基础教程】4、Hadoop之完全分...
阅读全文
摘要:所用HBase版本为1.1.2,hadoop版本为2.4/* * 创建一个students表,并进行相关操作 */import java.io.IOException;import java.util.ArrayList;import java.util.List; import org.apach...
阅读全文
摘要:1. HBase介绍及简易安装(转)2. java操作Hbase实例3. HBase入门基础教程之单机模式与伪分布式模式安装(转)4. HBase教程5. 用Java操纵HBase数据库(新建表,插入,删除,查找)6. 用Spark向HBase中插入数据7. 用Spark查询HBase中的表数据8....
阅读全文
摘要:原文链接:HBase介绍及简易安装HBase简介HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据,更具体地说仅用普通的硬件配置,能够处理成千上万的行和列所组成的大型数据库。HBa...
阅读全文
摘要:1. 通过java读取HDFS的数据 (转) 2. FLume监控文件夹,将数据发送给Kafka以及HDFS的配置文件详解 3. 开启hadoop和Hbase集群的lzo压缩功能(转) 4. Hadoop集群WordCount运行详解(转)
阅读全文
摘要:原文链接:通过java读取HDFS的数据 通过JAVA直接读取HDFS中的时候,一定会用到FSDataInputStream类,通过FSDataInputStream以流的形式从HDFS读数据代码如下:import java.io.IOException;import java.net.URI;im...
阅读全文
摘要:原文链接:记Flume-NG一些注意事项这里只考虑flume本身的一些东西,对于JVM、HDFS、HBase等得暂不涉及。。。。一、关于Source:1、spool-source:适合静态文件,即文件本身不是动态变化的;2、avro source可以适当提高线程数量来提高此source性能;3、Th...
阅读全文
摘要:原文链接:spark读取 kafka nginx网站日志消息 并写入HDFS中spark 版本为1.0kafka 版本为0.8首先来看看kafka的架构图 详细了解请参考官方我这边有三台机器用于kafka 日志收集的A 192.168.1.1 为serverB 192.168.1.2 为produc...
阅读全文
摘要:以下是我收集的Java开发牛人必备的网站。这些网站可以提供信息,以及一些很棒的讲座,还能解答一般问题、面试问题等。质量是衡量一个网站的关键因素,我个人认为这些网站质量都很好。接下来,我会跟大家分享我是如何使用这些网站学习和娱乐的。或许你会认为有些网站适合任何水平的开发者,但是我认为:对于Java开发...
阅读全文
摘要:原文链接:HTTP协议状态码详解(HTTP Status Code)使用ASP.NET/PHP/JSP 或者javascript都会用到http的不同状态,一些常见的状态码为:200 – 服务器成功返回网页 404 – 请求的网页不存在 503 – 服务不可用1xx(临时响应)表示临时响应并需要请求...
阅读全文
摘要:原文链接:[转]Flume NG 配置详解(说明,名词对应解释 源-Source,接收器-Sink,通道-Channel)配置 设置代理 Flume代理配置存储在本地配置文件。这是一个文本文件格式,是Java属性文件格式。在相同的配置文件,可以指定一个或多个代理的配置。配置文件包括每个源,接收...
阅读全文
摘要:原文链接:线段树(Segment Tree)1、概述线段树,也叫区间树,是一个完全二叉树,它在各个节点保存一条线段(即“子数组”),因而常用于解决数列维护问题,基本能保证每个操作的复杂度为O(lgN)。线段树是一种二叉搜索树,与区间树相似,它将一个区间划分成一些单元区间,每个单元区间对应线段树中的一...
阅读全文
摘要:原文链接:flume学习(三):flume将log4j日志数据写入到hdfs在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中。配置文件如下:[plain]view plaincopytier1.sources=source1tier1.channels=channel1tier...
阅读全文
摘要:原文链接:Ubuntu12.04挂载exFat格式U盘的方法首先关于exFAT ,这里就不多作解释了,再介绍一个软件fuse-exfat,https://code.google.com/p/exfat/fuse是指用户空间文件系统,而这个软件,顾名思义,就是为了让linux用户可以读写exFAT格式...
阅读全文
摘要:每行开头结尾都要有一个空格(半角的)例子如下:1 Manifest-Version: 1.02 Class-Path: lib/mongo-java-driver-2.11.4.jar 3 lib/guava-11.0.2.jar 4 lib/spark-examples-1.5.2-hadoo...
阅读全文
摘要:原文链接:错误Name node is in safe mode的解决方法 将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许...
阅读全文
摘要:原文链接:Kafka实战-Flume到Kafka1.概述 前面给大家介绍了整个Kafka项目的开发流程,今天给大家分享Kafka如何获取数据源,即Kafka生产数据。下面是今天要分享的目录:数据来源Flume到Kafka数据源加载预览 下面开始今天的分享内容。2.数据来源 Kafka生产的数据...
阅读全文
摘要:原文链接:Kafka flume 整合 前提前提是要先把flume和kafka独立的部分先搭建好。下载插件包下载flume-kafka-plus:https://github.com/beyondj2ee/flumeng-kafka-plugin把lib目录下的和package下的都放到flume的...
阅读全文
摘要:1. Flume的安装配置2. flume和kafka整合(转)3.Flume NG 配置详解(转)4. Flume-NG一些注意事项(转)5. FLume监控文件夹,将数据发送给Kafka以及HDFS的配置文件详解6. 应用Flume+HBase采集和存储日志数据
阅读全文
摘要:flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。一、什么是Flume? flume 作为 cloudera 开发的实时...
阅读全文
摘要:原文链接:Hbase系统架构及数据结构HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosys...
阅读全文
摘要:原文链接:Spark Streaming:大规模流式数据处理的新贵摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。...
阅读全文
摘要:原文链接:Spark源码分析:多种部署方式之间的区别与联系(1)从官方的文档我们可以知道,Spark的部署方式有很多种:local、Standalone、Mesos、YARN.....不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。 从代码中,我们可以得知其实...
阅读全文
摘要:原文链接:Storm和Spark Streaming框架对比 Storm和SparkStreaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的,正如你将要在下文看到的。处理模型以及延迟 虽然两框架都提供了可扩展性(scalability)和可容错性(fault toleran...
阅读全文
摘要:原文链接:Spark RDD API扩展开发(1)Spark RDD API扩展开发(2):自定义RDD我们都知道,ApacheSpark内置了很多操作数据的API。但是很多时候,当我们在现实中开发应用程序的时候,我们需要解决现实中遇到的问题,而这些问题可能在Spark中没有相应的API提供,这时候...
阅读全文
摘要:原文链接:【采集层】Kafka 与 Flume 如何选择采集层主要可以使用Flume, Kafka两种技术。Flume:Flume是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.Kafka:Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。你可以有许多...
阅读全文
摘要:原文链接:Spark Streaming中空batches处理的两种方法 SparkStreaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval),SparkStreaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD...
阅读全文
摘要:原文链接:在Spark中自定义Kryo序列化输入输出API在Spark中内置支持两种系列化格式:(1)、Java serialization;(2)、Kryo serialization。在默认情况下,Spark使用的是Java的ObjectOutputStream系列化框架,它支持所有继承java...
阅读全文
摘要:原文链接:Spark Streaming性能调优详解 SparkStreaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然...
阅读全文
摘要:原文链接:Spark应用程序运行的日志存在哪里在很多情况下,我们需要查看driver和executors在运行Spark应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的。 Spark日志确切的存放路径和部署模式相关: (1)、如果是Spark Standalone模式,我们可以直...
阅读全文
摘要:原文链接:在Spark中尽量少使用GroupByKey函数为什么建议尽量在Spark中少用GroupByKey,让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用reduceByKey;另外一种方式使用groupByKey,代码如下:01#User:过往记忆02#Date:2015-05...
阅读全文
摘要:原文链接:使用Spark读写CSV格式文件CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存表格数据(数字和文本)。CSV文件由任意数目的记...
阅读全文
摘要:Apache Spark 1.3.0引入了Direct API,利用Kafka的低层次API从Kafka集群中读取数据,并且在Spark Streaming系统里面维护偏移量相关的信息,并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量,而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中,这将导致那些基于偏移量的Kafka集群监控软件(比如:Apache Kafka监控之Kafka Web Console、Apache Kafka监控之KafkaOffsetMonitor等)失效。本文就是基于为了解决这个问题,使得我们编写的Spark Streaming程序能够在每次接收到数据之后自动地更新Zookeeper中Kafka的偏移量。
阅读全文
摘要:1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码,生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.producer.Producer; impo...
阅读全文
摘要:原文链接:Kafka0.8.2.1删除topic逻辑前提条件: 在启动broker时候开启删除topic的开关,即在server.properties中添加:delete.topic.enable=true命令:bin/kafka-topics.sh --zookeeper zk_host:port...
阅读全文
摘要:原文链接:apache kafka监控系列-KafkaOffsetMonitor 概览最 近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不 能集中看整个集群情况。或者一个cluster中br...
阅读全文
摘要:1. kafka生产者、消费者java示例 2. apache kafka监控系列-KafkaOffsetMonitor(转) 3. Kafka0.8.2删除topic逻辑(转) 4. spark streaming 接收 kafka 数据java代码WordCount示例 5. Spark+Kaf
阅读全文
摘要:1. 生产者import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig...
阅读全文
摘要:原文链接:http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/index.html?ca=drs-&utm_source=tuicool引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据...
阅读全文
摘要:原文链接:Spark集群基于Zookeeper的HA搭建部署笔记1.环境介绍(1)操作系统RHEL6.2-64(2)两个节点:spark1(192.168.232.147),spark2(192.168.232.152)(3)两个节点上都装好了Hadoop 2.2集群2.安装Zookeeper(1)...
阅读全文
摘要:原文链接:http://coolxing.iteye.com/blog/1871009Zookeeper的安装和配置十分简单, 既可以配置成单机模式, 也可以配置成集群模式. 下面将分别进行介绍.单机模式点击这里下载zookeeper的安装包之后, 解压到合适目录. 进入zookeeper目录下的c...
阅读全文
摘要:1. Zookeeper常用命令 (转)2. ZooKeeper安装和配置(转)3. Spark集群基于Zookeeper的HA搭建部署笔记(转)
阅读全文
摘要:原文链接:ZooKeeper系列之二:Zookeeper常用命令 ZooKeeper服务命令: 在准备好相应的配置之后,可以直接通过zkServer.sh 这个脚本进行服务的相关操作1. 启动ZK服务: sh bin/zkServer.sh start2. 查看ZK服务状态: sh bin/zkS...
阅读全文
摘要:当大片连续区域进行数据存储并且存储区域中数据重复性高的状况下,数据适合进行压缩。数组或者对象序列化后的数据块可以考虑压缩。所以序列化后的数据可以压缩,使数据紧缩,减少空间开销。1. Spark对压缩方式的选择 压缩采用了两种算法:Snappy和LZF,底层分别采用了两个第三方库实现,同时可以自...
阅读全文
摘要:1. 先进先出(FIFO)调度器 先进先出调度器是Hadoop的默认调度器。就像这个名字所隐含的那样,这种调度器就是用简单按照“先到先得”的算法来调度任务的。例如,作业A和作业B被先后提交。那么在执行作业B的任务前,作业A中的所有map任务都应该已经执行完成。 配置:调度器类型的配置是在mapr...
阅读全文
摘要:1. hadoop fs 帮助信息hadoop fs使用help选项可以获得某个具体命令的详细说明:hadoop fs -help ls2. 列出HDFS文件和目录hadoop fs -ls /user/3. 复制文件到HDFS和从HDFS复制文件 在很多方面,HDFS较之于本地0S文件系统更像一...
阅读全文