上一页 1 2 3 4 5 6 7 ··· 29 下一页
摘要: Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。一、kafka体系架构一个典型的Kafka体系架构包括若干Producer(可以是服务器日志,业务数据,页面前端产生的page vie... 阅读全文
posted @ 2017-11-26 03:51 ChavinKing 阅读(2246) 评论(0) 推荐(0) 编辑
摘要: 1、 安装flumeflume安装,解压后修改flume_env.sh配置文件,指定java_home即可。cp hdfs jar包到flume lib目录下(否则无法抽取数据到hdfs上):$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs/hadoop-hdfs-2.5.0-cdh5.3.6.jar /opt/cdh-5.3.... 阅读全文
posted @ 2017-11-26 02:46 ChavinKing 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 一、spark streaming简介Streaming是一种数据传输技术,它把客户机收到的数据变成一个稳定连续的流,源源不断的输出,使用户听到的声音和图像十分稳定,而用户在整个文件传输完成开始前就可以浏览文件。常见的流式计算框架:l Apache storml Spark streamingl Apache samza上述三种实时计算系统都是开源分布式系统,具有低延迟,可扩展和容错性诸多优点,他... 阅读全文
posted @ 2017-11-19 22:08 ChavinKing 阅读(472) 评论(0) 推荐(0) 编辑
摘要: 一、idea社区版安装scala插件因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安装scala插件,具体安装办法如下。1、打开idea,点击configure下拉菜单中的plugins选项:2、在弹出对话框中点击红框按钮:3、在弹出最新对话框的搜索栏输入scala,在筛选出的内容中选择红框部分,点击右侧install按钮开始下载插件:本人在测试... 阅读全文
posted @ 2017-11-19 18:56 ChavinKing 阅读(28769) 评论(0) 推荐(0) 编辑
摘要: 一、Presto简介1、PRESTO是什么?Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么?Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数... 阅读全文
posted @ 2017-11-18 22:08 ChavinKing 阅读(26782) 评论(0) 推荐(0) 编辑
摘要: EPEL (Extra Packages for Enterprise Linux)是基于Fedora的一个项目,为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux.使用很简单:1. 首先我们需要安装一个叫”epel-release”的软件包,这个软件包会自动配置yum的软件仓库。当然你也可以不安装这个包,自己配置软件仓库也是一样的。安装epel... 阅读全文
posted @ 2017-11-15 00:24 ChavinKing 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 1、参考文档:spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0:http://spark.apache.org/docs/1.6.0/running-on-yarn.html备注:从spark-1.6.0开始,spark on yarn命令有略微改变,具体参考官方文档,这里以spark 1.... 阅读全文
posted @ 2017-11-14 23:09 ChavinKing 阅读(547) 评论(0) 推荐(0) 编辑
摘要: bin/spark-submit --help... ...--deploy-mode DEPLOY_MODE Whether to launch the driver program locally ("client") or on one of the worker machines inside the cluster ("cl... 阅读全文
posted @ 2017-11-13 00:45 ChavinKing 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 以下内容采自网络,目前验证未通过,仅以此作为参考:简介:早期的Impala版本中,为了使用Impala,我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-catalog服务,并且在启动过程中无法动态调整内存和CPU的分配。CDH5之后,Impala开始支持Impala-on-yarn模式,通过一个叫做Ll... 阅读全文
posted @ 2017-11-05 15:50 ChavinKing 阅读(822) 评论(0) 推荐(0) 编辑
摘要: 1、Tez简介Tez是Hontonworks开源的支持DAG作业的计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序2、编译tez本文记录Tez 0.8.5的编译过程,之前的Tez版本都是源码包,最新的版本虽然提供了编译后的tar包,但是大部分情况下是针对特定的Had... 阅读全文
posted @ 2017-11-05 13:16 ChavinKing 阅读(1789) 评论(0) 推荐(0) 编辑
摘要: 部署impalaimpala安装选择rpm包方式进行,这是本次部署唯一一个主要主件采用rpm方式进行安装部署,这里主要原因是cloudera没有提供现成的tar包文件,而源码编译过程会出现各种未知原因,为了方便采用以下方式进行部署。安装介质如下:$ lsbigtop-utils-0.7.0+cdh5.10.0+0-1.cdh5.10.0.p0.71.el7.noarch.rpmimpala-2.7... 阅读全文
posted @ 2017-10-29 20:08 ChavinKing 阅读(2523) 评论(0) 推荐(0) 编辑
摘要: 临时修改:重启失效hostname xxx永久修改:hostnamectl set-hostname xxx 阅读全文
posted @ 2017-10-29 01:04 ChavinKing 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 1、phoenix简介Apache Phoenix是构建在HBase之上的关系型数据库层,作为内嵌的客户端JDBC驱动用以对HBase中的数据进行低延迟访问。Apache Phoenix会将用户编写的sql查询编译为一系列的scan操作,最终产生通用的JDBC结果集返回给客户端。数据表的元数据存储在HBase的表中被会标记版本号,所以进行查询的时候会自动选择正确的schema。直接使用HBase的... 阅读全文
posted @ 2017-10-22 01:50 ChavinKing 阅读(1771) 评论(0) 推荐(0) 编辑
摘要: 1、Requirements:* Unix System* JDK 1.7+* Maven 3.0 or later* Findbugs 1.3.9 (if running findbugs)* ProtocolBuffer 2.5.0* CMake 2.6 or newer (if compiling native code), must be 3.0 or newer on Mac* Zlib... 阅读全文
posted @ 2017-10-20 09:45 ChavinKing 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进制安装包存在未知问题,如果直接下载spark二进制安装文件,配置完成后会发现启动spark及相关使用 阅读全文
posted @ 2017-10-18 17:56 ChavinKing 阅读(783) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 29 下一页
点击右上角即可分享
微信分享提示