上一页 1 2 3 4 5 6 7 8 ··· 29 下一页
摘要: 1、sqoop抽取mysql表到hbase中export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/con... 阅读全文
posted @ 2017-10-10 09:20 ChavinKing 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 1、创建hbase jar包到hive lib目录软连接hive需要jar包:hive-hbase-handler-0.13.1-cdh5.3.6.jarzookeeper-3.4.5-cdh5.3.6.jarguava-12.0.1.jar --删除hive下低版本jar包,cp hbase中的到hive/lib/下(即需要注意jar包版本)ln -s /opt... 阅读全文
posted @ 2017-10-10 09:18 ChavinKing 阅读(672) 评论(0) 推荐(0) 编辑
摘要: hbase与mapreduce集成后,运行mapreduce程序,同时需要mapreduce jar和hbase jar文件的支持,这时我们需要通过特殊设置使任务可以同时读取到hadoop jar和hbase jar文件内容,否则任务会报错。我们知道仅仅运行mapreduce任务时,不需要设置classpath,这时因为运行bin/yarn命令时已经在命令脚本中针对hadoop执行jar包路径进行... 阅读全文
posted @ 2017-10-10 09:17 ChavinKing 阅读(1467) 评论(0) 推荐(0) 编辑
摘要: 本文基于vmware workstations进行CentOS7安装过程展示,关于vmware workstations安装配置本人这里不再介绍,基本过程相当于windows下安装个软件而已。 1、打开vmware workstations,文件->新建虚拟机,出现如下界面,选择“自定义(高级)”选 阅读全文
posted @ 2017-10-06 07:19 ChavinKing 阅读(341069) 评论(6) 推荐(26) 编辑
摘要: 1、先决条件:安装pssh工具的主机针对远程主机需要配置免秘钥认证:ssh-keygen -t rsassh-copy-id [remotehost]2、下载mussh工具安装介质:https://jaist.dl.sourceforge.net/project/mussh/mussh/1.0/mussh-1.0.tgz3、安装musshmussh安装非常简单,直接解压缩安装包即可使用。tar -... 阅读全文
posted @ 2017-10-06 07:12 ChavinKing 阅读(1062) 评论(0) 推荐(0) 编辑
摘要: 1、先决条件:安装pssh工具的主机针对远程主机需要配置免秘钥认证:ssh-keygen -t rsassh-copy-id [remotehost]2、下载pssh工具安装介质:https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/pdsh/pdsh-2.29.tar.bz23、安装pdsh... 阅读全文
posted @ 2017-10-06 07:11 ChavinKing 阅读(1922) 评论(0) 推荐(0) 编辑
摘要: 1、先决条件:安装pssh工具要求python版本大于2.4即可。安装pssh工具的主机针对远程主机需要配置免秘钥认证:ssh-keygen -t rsassh-copy-id [remotehost]2、下载pssh工具安装介质:https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/para... 阅读全文
posted @ 2017-10-06 07:10 ChavinKing 阅读(950) 评论(0) 推荐(0) 编辑
摘要: 在centos7上安装mysql数据库,进行数据库初始化工作时,报错缺少data::dumper库文件,如下:解决办法:安装autoconf库后重新初始化即可解决。yum-y install autoconf 阅读全文
posted @ 2017-10-02 04:00 ChavinKing 阅读(657) 评论(0) 推荐(0) 编辑
摘要: Configuration FileConfiguration SettingValue Calculation 8G VM (4G For MR) yarn-site.xmlyarn.nodemanager.resource.memory-mb= containers * RAM-per-container4096yarn-site.xmlyarn.scheduler.minim... 阅读全文
posted @ 2017-09-27 13:29 ChavinKing 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 本文经过大量细致的优化后,收录于我的新书《编程之法》第六章中,新书目前已上架京东/当当/亚马逊前言一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名 :-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限,本文将摒弃绝大部... 阅读全文
posted @ 2017-09-27 13:25 ChavinKing 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/v_july_v/article/details/62794981、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(... 阅读全文
posted @ 2017-09-27 13:23 ChavinKing 阅读(208) 评论(0) 推荐(0) 编辑
摘要: [root@chavinking mnt]# cat textfile chavinking 1 2 3 4 5 6nope 1 2 3 4 5 6[root@chavinking mnt]# cat textfile | awk '{for(i=1;i<=$NF+1;i++){sum=sum+$i} {print $1" "sum;sum=0}}'chavinking 21nope 21[roo... 阅读全文
posted @ 2017-09-27 13:22 ChavinKing 阅读(548) 评论(0) 推荐(0) 编辑
摘要: 简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.... 阅读全文
posted @ 2017-09-27 13:21 ChavinKing 阅读(2942) 评论(0) 推荐(0) 编辑
摘要: 结论: order by:全局排序,这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法,只有一个reduce,可能造成renduce任务时间过长,在严格模式下,要求必须具备limit子句。 sort by:可以运行多个reduce,每个reduce内排序,默认升序排序。 distribut 阅读全文
posted @ 2017-09-27 13:20 ChavinKing 阅读(1157) 评论(0) 推荐(0) 编辑
摘要: 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。所谓Hive中的分桶,实际就是指的MapReduce中的分区。根据Reduce的数量,分成不同个数的文件。我们先准备我们将使用的分桶表的数据.1,jack,2016/11/112,... 阅读全文
posted @ 2017-09-27 13:19 ChavinKing 阅读(947) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 29 下一页
点击右上角即可分享
微信分享提示