ChavinKing - 博客园

2017年11月

摘要： Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。一、kafka体系架构一个典型的Kafka体系架构包括若干Producer（可以是服务器日志，业务数据，页面前端产生的page vie... 阅读全文

posted @ 2017-11-26 03:51 ChavinKing 阅读(2246) 评论(0) 推荐(0) 编辑

spark streaming集成flume

摘要： 1、安装flumeflume安装，解压后修改flume_env.sh配置文件，指定java_home即可。cp hdfs jar包到flume lib目录下（否则无法抽取数据到hdfs上）：$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs/hadoop-hdfs-2.5.0-cdh5.3.6.jar /opt/cdh-5.3.... 阅读全文

posted @ 2017-11-26 02:46 ChavinKing 阅读(333) 评论(0) 推荐(0) 编辑

Spark Streaming实战演练

摘要：一、spark streaming简介Streaming是一种数据传输技术，它把客户机收到的数据变成一个稳定连续的流，源源不断的输出，使用户听到的声音和图像十分稳定，而用户在整个文件传输完成开始前就可以浏览文件。常见的流式计算框架：l Apache storml Spark streamingl Apache samza上述三种实时计算系统都是开源分布式系统，具有低延迟，可扩展和容错性诸多优点，他... 阅读全文

posted @ 2017-11-19 22:08 ChavinKing 阅读(472) 评论(0) 推荐(0) 编辑

通过IDEA搭建scala开发环境开发spark应用程序

摘要：一、idea社区版安装scala插件因为idea默认不支持scala开发环境，所以当需要使用idea搭建scala开发环境时，首先需要安装scala插件，具体安装办法如下。1、打开idea，点击configure下拉菜单中的plugins选项：2、在弹出对话框中点击红框按钮：3、在弹出最新对话框的搜索栏输入scala，在筛选出的内容中选择红框部分，点击右侧install按钮开始下载插件：本人在测试... 阅读全文

posted @ 2017-11-19 18:56 ChavinKing 阅读(28769) 评论(0) 推荐(0) 编辑

Presto实战

摘要：一、Presto简介1、PRESTO是什么？Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么？Presto支持在线数据查询，包括Hive, Cassandra, 关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数... 阅读全文

posted @ 2017-11-18 22:08 ChavinKing 阅读(26782) 评论(0) 推荐(0) 编辑

CentOS安装EPEL源

摘要： EPEL (Extra Packages for Enterprise Linux)是基于Fedora的一个项目，为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux.使用很简单：1. 首先我们需要安装一个叫”epel-release”的软件包，这个软件包会自动配置yum的软件仓库。当然你也可以不安装这个包，自己配置软件仓库也是一样的。安装epel... 阅读全文

posted @ 2017-11-15 00:24 ChavinKing 阅读(265) 评论(0) 推荐(0) 编辑

spark on yarn详解

摘要： 1、参考文档：spark-1.3.0：http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0：http://spark.apache.org/docs/1.6.0/running-on-yarn.html备注：从spark-1.6.0开始，spark on yarn命令有略微改变，具体参考官方文档，这里以spark 1.... 阅读全文

posted @ 2017-11-14 23:09 ChavinKing 阅读(547) 评论(0) 推荐(0) 编辑

spark application提交应用的两种方式

摘要： bin/spark-submit --help... ...--deploy-mode DEPLOY_MODE Whether to launch the driver program locally ("client") or on one of the worker machines inside the cluster ("cl... 阅读全文

posted @ 2017-11-13 00:45 ChavinKing 阅读(244) 评论(0) 推荐(0) 编辑

配置llama实现impala on yarn-验证未通过，仅以此文作为参考

摘要：以下内容采自网络，目前验证未通过，仅以此作为参考：简介：早期的Impala版本中，为了使用Impala，我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-catalog服务，并且在启动过程中无法动态调整内存和CPU的分配。CDH5之后，Impala开始支持Impala-on-yarn模式，通过一个叫做Ll... 阅读全文

posted @ 2017-11-05 15:50 ChavinKing 阅读(822) 评论(0) 推荐(0) 编辑

hive on tez配置

摘要： 1、Tez简介Tez是Hontonworks开源的支持DAG作业的计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序2、编译tez本文记录Tez 0.8.5的编译过程，之前的Tez版本都是源码包，最新的版本虽然提供了编译后的tar包，但是大部分情况下是针对特定的Had... 阅读全文

posted @ 2017-11-05 13:16 ChavinKing 阅读(1789) 评论(0) 推荐(0) 编辑

2017年10月

Impala2.7.0-cdh5.x.x安装部署

摘要：部署impalaimpala安装选择rpm包方式进行，这是本次部署唯一一个主要主件采用rpm方式进行安装部署，这里主要原因是cloudera没有提供现成的tar包文件，而源码编译过程会出现各种未知原因，为了方便采用以下方式进行部署。安装介质如下：$ lsbigtop-utils-0.7.0+cdh5.10.0+0-1.cdh5.10.0.p0.71.el7.noarch.rpmimpala-2.7... 阅读全文

posted @ 2017-10-29 20:08 ChavinKing 阅读(2523) 评论(0) 推荐(0) 编辑

CentOS7修改主机名

摘要：临时修改：重启失效hostname xxx永久修改：hostnamectl set-hostname xxx 阅读全文

posted @ 2017-10-29 01:04 ChavinKing 阅读(146) 评论(0) 推荐(0) 编辑

phoenix技术（安装部署和基本使用）讲解

摘要： 1、phoenix简介Apache Phoenix是构建在HBase之上的关系型数据库层，作为内嵌的客户端JDBC驱动用以对HBase中的数据进行低延迟访问。Apache Phoenix会将用户编写的sql查询编译为一系列的scan操作，最终产生通用的JDBC结果集返回给客户端。数据表的元数据存储在HBase的表中被会标记版本号，所以进行查询的时候会自动选择正确的schema。直接使用HBase的... 阅读全文

posted @ 2017-10-22 01:50 ChavinKing 阅读(1771) 评论(0) 推荐(0) 编辑

编译安装hadoop2.x

摘要： 1、Requirements:* Unix System* JDK 1.7+* Maven 3.0 or later* Findbugs 1.3.9 (if running findbugs)* ProtocolBuffer 2.5.0* CMake 2.6 or newer (if compiling native code), must be 3.0 or newer on Mac* Zlib... 阅读全文

posted @ 2017-10-20 09:45 ChavinKing 阅读(145) 评论(0) 推荐(0) 编辑

基于cdh5.10.x hadoop版本的apache源码编译安装spark

摘要：参考文档：http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署，cdh5.10.0提供默认的二进制安装包存在未知问题，如果直接下载spark二进制安装文件，配置完成后会发现启动spark及相关使用阅读全文

posted @ 2017-10-18 17:56 ChavinKing 阅读(783) 评论(0) 推荐(0) 编辑

公告

欢迎订阅笔者技术公众号：ByteLabs，更多干货等待你的探索！

扫码关注微信公众号，更多干货等你探索

昵称： ChavinKing
园龄： 10年6个月
粉丝： 95
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (481)

相册 (1)

icon(1)

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (481)

相册 (1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论