BigData - 随笔分类(第2页) - ChavinKing

spark application提交应用的两种方式

摘要：bin/spark-submit --help... ...--deploy-mode DEPLOY_MODE Whether to launch the driver program locally ("client") or on one of the worker machines inside the cluster ("cl... 阅读全文

posted @ 2017-11-13 00:45 ChavinKing 阅读(244) 评论(0) 推荐(0) 编辑

配置llama实现impala on yarn-验证未通过，仅以此文作为参考

摘要：以下内容采自网络，目前验证未通过，仅以此作为参考：简介：早期的Impala版本中，为了使用Impala，我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-catalog服务，并且在启动过程中无法动态调整内存和CPU的分配。CDH5之后，Impala开始支持Impala-on-yarn模式，通过一个叫做Ll... 阅读全文

posted @ 2017-11-05 15:50 ChavinKing 阅读(821) 评论(0) 推荐(0) 编辑

hive on tez配置

摘要：1、Tez简介Tez是Hontonworks开源的支持DAG作业的计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序2、编译tez本文记录Tez 0.8.5的编译过程，之前的Tez版本都是源码包，最新的版本虽然提供了编译后的tar包，但是大部分情况下是针对特定的Had... 阅读全文

posted @ 2017-11-05 13:16 ChavinKing 阅读(1789) 评论(0) 推荐(0) 编辑

Impala2.7.0-cdh5.x.x安装部署

摘要：部署impalaimpala安装选择rpm包方式进行，这是本次部署唯一一个主要主件采用rpm方式进行安装部署，这里主要原因是cloudera没有提供现成的tar包文件，而源码编译过程会出现各种未知原因，为了方便采用以下方式进行部署。安装介质如下：$ lsbigtop-utils-0.7.0+cdh5.10.0+0-1.cdh5.10.0.p0.71.el7.noarch.rpmimpala-2.7... 阅读全文

posted @ 2017-10-29 20:08 ChavinKing 阅读(2522) 评论(0) 推荐(0) 编辑

phoenix技术（安装部署和基本使用）讲解

摘要：1、phoenix简介Apache Phoenix是构建在HBase之上的关系型数据库层，作为内嵌的客户端JDBC驱动用以对HBase中的数据进行低延迟访问。Apache Phoenix会将用户编写的sql查询编译为一系列的scan操作，最终产生通用的JDBC结果集返回给客户端。数据表的元数据存储在HBase的表中被会标记版本号，所以进行查询的时候会自动选择正确的schema。直接使用HBase的... 阅读全文

posted @ 2017-10-22 01:50 ChavinKing 阅读(1769) 评论(0) 推荐(0) 编辑

编译安装hadoop2.x

摘要：1、Requirements:* Unix System* JDK 1.7+* Maven 3.0 or later* Findbugs 1.3.9 (if running findbugs)* ProtocolBuffer 2.5.0* CMake 2.6 or newer (if compiling native code), must be 3.0 or newer on Mac* Zlib... 阅读全文

posted @ 2017-10-20 09:45 ChavinKing 阅读(145) 评论(0) 推荐(0) 编辑

基于cdh5.10.x hadoop版本的apache源码编译安装spark

摘要：参考文档：http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署，cdh5.10.0提供默认的二进制安装包存在未知问题，如果直接下载spark二进制安装文件，配置完成后会发现启动spark及相关使用阅读全文

posted @ 2017-10-18 17:56 ChavinKing 阅读(782) 评论(0) 推荐(0) 编辑

hbase与sqoop的集成

摘要：1、sqoop抽取mysql表到hbase中export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/con... 阅读全文

posted @ 2017-10-10 09:20 ChavinKing 阅读(202) 评论(0) 推荐(0) 编辑

hbase与hive集成：hive读取hbase中数据

摘要：1、创建hbase jar包到hive lib目录软连接hive需要jar包：hive-hbase-handler-0.13.1-cdh5.3.6.jarzookeeper-3.4.5-cdh5.3.6.jarguava-12.0.1.jar --删除hive下低版本jar包，cp hbase中的到hive/lib/下（即需要注意jar包版本）ln -s /opt... 阅读全文

posted @ 2017-10-10 09:18 ChavinKing 阅读(672) 评论(0) 推荐(0) 编辑

hbase运行mapreduce设置及基本数据加载方法

摘要：hbase与mapreduce集成后，运行mapreduce程序，同时需要mapreduce jar和hbase jar文件的支持，这时我们需要通过特殊设置使任务可以同时读取到hadoop jar和hbase jar文件内容，否则任务会报错。我们知道仅仅运行mapreduce任务时，不需要设置classpath，这时因为运行bin/yarn命令时已经在命令脚本中针对hadoop执行jar包路径进行... 阅读全文

posted @ 2017-10-10 09:17 ChavinKing 阅读(1465) 评论(0) 推荐(0) 编辑

hadoop内存配置方案

摘要：Configuration FileConfiguration SettingValue Calculation 8G VM (4G For MR) yarn-site.xmlyarn.nodemanager.resource.memory-mb= containers * RAM-per-container4096yarn-site.xmlyarn.scheduler.minim... 阅读全文

posted @ 2017-09-27 13:29 ChavinKing 阅读(367) 评论(0) 推荐(0) 编辑

教你如何迅速秒杀掉：99%的海量数据处理面试题-转

摘要：本文经过大量细致的优化后，收录于我的新书《编程之法》第六章中，新书目前已上架京东/当当/亚马逊前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名 :-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限，本文将摒弃绝大部... 阅读全文

posted @ 2017-09-27 13:25 ChavinKing 阅读(288) 评论(0) 推荐(0) 编辑

第一部分、十道海量数据处理面试题

摘要：转自:http://blog.csdn.net/v_july_v/article/details/62794981、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（... 阅读全文

posted @ 2017-09-27 13:23 ChavinKing 阅读(208) 评论(0) 推荐(0) 编辑

Hive中的窗口函数

摘要：简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.... 阅读全文

posted @ 2017-09-27 13:21 ChavinKing 阅读(2942) 评论(0) 推荐(0) 编辑

Hive中的order by、sort by、distribute by、cluster by解释及测试

摘要：结论： order by:全局排序，这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法，只有一个reduce，可能造成renduce任务时间过长，在严格模式下，要求必须具备limit子句。 sort by：可以运行多个reduce，每个reduce内排序，默认升序排序。 distribut 阅读全文

posted @ 2017-09-27 13:20 ChavinKing 阅读(1155) 评论(0) 推荐(0) 编辑

hive桶表好处

摘要：对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。所谓Hive中的分桶，实际就是指的MapReduce中的分区。根据Reduce的数量，分成不同个数的文件。我们先准备我们将使用的分桶表的数据.1,jack,2016/11/112,... 阅读全文

posted @ 2017-09-27 13:19 ChavinKing 阅读(947) 评论(0) 推荐(0) 编辑

hive优化之参数调优

摘要：1、hive参数优化之默认启用本地模式启动hive本地模式参数，一般建议将其设置为true，即时刻启用：hive (chavin)> set hive.exec.mode.local.auto; hive.exec.mode.local.auto=false2、设置hive执行模式hive (default)> set hive.mapred.mode;hive.mapred.mode=n... 阅读全文

posted @ 2017-09-27 13:19 ChavinKing 阅读(3330) 评论(0) 推荐(0) 编辑

HQL之动态分区调整

摘要：动态分区插入可以基于查询语句分出出要插入的分区名称。比如，下面向分区表插入数据的SQL：insert into table chavin.emp_pat partition(dname,loc)select e.empno,e.ename,e.job,e.mgr,e.hiredate,e.sal,e.comm,e.deptno,d.dname,d.loc from dept d join emp ... 阅读全文

posted @ 2017-09-27 13:18 ChavinKing 阅读(965) 评论(0) 推荐(0) 编辑

hive优化之开启压缩功能

摘要：1、开启hive作业mapreduce任务中间压缩功能：对于数据进行压缩可以减少job中map和reduce task间的数据传输量。对于中间数据压缩，选择一个低cpu开销编/解码器要不选择一个压缩率高的编解码器重要很多。hadoop压缩的默认编解码器是DefaultCodec，可以通过设置参数mapred.map.output.compression.codec来进行相应调整，这是一个hadoo... 阅读全文

posted @ 2017-09-27 13:17 ChavinKing 阅读(1559) 评论(0) 推荐(0) 编辑

hive优化之调整mapreduce数目

摘要：一、调整hive作业中的map数1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.举例：a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7... 阅读全文

posted @ 2017-09-27 13:17 ChavinKing 阅读(11019) 评论(1) 推荐(1) 编辑

随笔分类 - BigData

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (481)

相册 (1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论