摘要:
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。一、kafka体系架构一个典型的Kafka体系架构包括若干Producer(可以是服务器日志,业务数据,页面前端产生的page vie... 阅读全文
摘要:
1、 安装flumeflume安装,解压后修改flume_env.sh配置文件,指定java_home即可。cp hdfs jar包到flume lib目录下(否则无法抽取数据到hdfs上):$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs/hadoop-hdfs-2.5.0-cdh5.3.6.jar /opt/cdh-5.3.... 阅读全文
摘要:
一、spark streaming简介Streaming是一种数据传输技术,它把客户机收到的数据变成一个稳定连续的流,源源不断的输出,使用户听到的声音和图像十分稳定,而用户在整个文件传输完成开始前就可以浏览文件。常见的流式计算框架:l Apache storml Spark streamingl Apache samza上述三种实时计算系统都是开源分布式系统,具有低延迟,可扩展和容错性诸多优点,他... 阅读全文
摘要:
一、idea社区版安装scala插件因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安装scala插件,具体安装办法如下。1、打开idea,点击configure下拉菜单中的plugins选项:2、在弹出对话框中点击红框按钮:3、在弹出最新对话框的搜索栏输入scala,在筛选出的内容中选择红框部分,点击右侧install按钮开始下载插件:本人在测试... 阅读全文
摘要:
一、Presto简介1、PRESTO是什么?Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么?Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数... 阅读全文
摘要:
EPEL (Extra Packages for Enterprise Linux)是基于Fedora的一个项目,为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux.使用很简单:1. 首先我们需要安装一个叫”epel-release”的软件包,这个软件包会自动配置yum的软件仓库。当然你也可以不安装这个包,自己配置软件仓库也是一样的。安装epel... 阅读全文
摘要:
1、参考文档:spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0:http://spark.apache.org/docs/1.6.0/running-on-yarn.html备注:从spark-1.6.0开始,spark on yarn命令有略微改变,具体参考官方文档,这里以spark 1.... 阅读全文
摘要:
bin/spark-submit --help... ...--deploy-mode DEPLOY_MODE Whether to launch the driver program locally ("client") or on one of the worker machines inside the cluster ("cl... 阅读全文
摘要:
以下内容采自网络,目前验证未通过,仅以此作为参考:简介:早期的Impala版本中,为了使用Impala,我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-catalog服务,并且在启动过程中无法动态调整内存和CPU的分配。CDH5之后,Impala开始支持Impala-on-yarn模式,通过一个叫做Ll... 阅读全文
摘要:
1、Tez简介Tez是Hontonworks开源的支持DAG作业的计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序2、编译tez本文记录Tez 0.8.5的编译过程,之前的Tez版本都是源码包,最新的版本虽然提供了编译后的tar包,但是大部分情况下是针对特定的Had... 阅读全文