ChavinKing - 博客园

2017年10月

摘要： 1、sqoop抽取mysql表到hbase中export HBASE_HOME=/opt/cdh-5.3.6/hbase-0.98.6-cdh5.3.6export HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/con... 阅读全文

posted @ 2017-10-10 09:20 ChavinKing 阅读(203) 评论(0) 推荐(0) 编辑

hbase与hive集成：hive读取hbase中数据

摘要： 1、创建hbase jar包到hive lib目录软连接hive需要jar包：hive-hbase-handler-0.13.1-cdh5.3.6.jarzookeeper-3.4.5-cdh5.3.6.jarguava-12.0.1.jar --删除hive下低版本jar包，cp hbase中的到hive/lib/下（即需要注意jar包版本）ln -s /opt... 阅读全文

posted @ 2017-10-10 09:18 ChavinKing 阅读(672) 评论(0) 推荐(0) 编辑

hbase运行mapreduce设置及基本数据加载方法

摘要： hbase与mapreduce集成后，运行mapreduce程序，同时需要mapreduce jar和hbase jar文件的支持，这时我们需要通过特殊设置使任务可以同时读取到hadoop jar和hbase jar文件内容，否则任务会报错。我们知道仅仅运行mapreduce任务时，不需要设置classpath，这时因为运行bin/yarn命令时已经在命令脚本中针对hadoop执行jar包路径进行... 阅读全文

posted @ 2017-10-10 09:17 ChavinKing 阅读(1467) 评论(0) 推荐(0) 编辑

CentOS7安装详解

摘要：本文基于vmware workstations进行CentOS7安装过程展示，关于vmware workstations安装配置本人这里不再介绍，基本过程相当于windows下安装个软件而已。 1、打开vmware workstations，文件->新建虚拟机，出现如下界面，选择“自定义（高级）”选阅读全文

posted @ 2017-10-06 07:19 ChavinKing 阅读(341069) 评论(6) 推荐(26) 编辑

自动化运维工具-mussh工具安装配置及简单使用讲解

摘要： 1、先决条件：安装pssh工具的主机针对远程主机需要配置免秘钥认证：ssh-keygen -t rsassh-copy-id [remotehost]2、下载mussh工具安装介质：https://jaist.dl.sourceforge.net/project/mussh/mussh/1.0/mussh-1.0.tgz3、安装musshmussh安装非常简单，直接解压缩安装包即可使用。tar -... 阅读全文

posted @ 2017-10-06 07:12 ChavinKing 阅读(1062) 评论(0) 推荐(0) 编辑

自动化运维工具-pdsh工具安装配置及简单使用讲解

摘要： 1、先决条件：安装pssh工具的主机针对远程主机需要配置免秘钥认证：ssh-keygen -t rsassh-copy-id [remotehost]2、下载pssh工具安装介质：https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/pdsh/pdsh-2.29.tar.bz23、安装pdsh... 阅读全文

posted @ 2017-10-06 07:11 ChavinKing 阅读(1922) 评论(0) 推荐(0) 编辑

自动化运维工具-pssh工具安装配置及简单使用讲解

摘要： 1、先决条件：安装pssh工具要求python版本大于2.4即可。安装pssh工具的主机针对远程主机需要配置免秘钥认证：ssh-keygen -t rsassh-copy-id [remotehost]2、下载pssh工具安装介质：https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/para... 阅读全文

posted @ 2017-10-06 07:10 ChavinKing 阅读(950) 评论(0) 推荐(0) 编辑

CentOS7初始化mysql库报错

摘要：在centos7上安装mysql数据库，进行数据库初始化工作时，报错缺少data::dumper库文件，如下：解决办法：安装autoconf库后重新初始化即可解决。yum-y install autoconf 阅读全文

posted @ 2017-10-02 04:00 ChavinKing 阅读(657) 评论(0) 推荐(0) 编辑

2017年9月

hadoop内存配置方案

摘要： Configuration FileConfiguration SettingValue Calculation 8G VM (4G For MR) yarn-site.xmlyarn.nodemanager.resource.memory-mb= containers * RAM-per-container4096yarn-site.xmlyarn.scheduler.minim... 阅读全文

posted @ 2017-09-27 13:29 ChavinKing 阅读(368) 评论(0) 推荐(0) 编辑

教你如何迅速秒杀掉：99%的海量数据处理面试题-转

摘要：本文经过大量细致的优化后，收录于我的新书《编程之法》第六章中，新书目前已上架京东/当当/亚马逊前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名 :-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限，本文将摒弃绝大部... 阅读全文

posted @ 2017-09-27 13:25 ChavinKing 阅读(288) 评论(0) 推荐(0) 编辑

第一部分、十道海量数据处理面试题

摘要：转自:http://blog.csdn.net/v_july_v/article/details/62794981、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（... 阅读全文

posted @ 2017-09-27 13:23 ChavinKing 阅读(208) 评论(0) 推荐(0) 编辑

shell之awk面试小案例

摘要： [root@chavinking mnt]# cat textfile chavinking 1 2 3 4 5 6nope 1 2 3 4 5 6[root@chavinking mnt]# cat textfile | awk '{for(i=1;i<=$NF+1;i++){sum=sum+$i} {print $1" "sum;sum=0}}'chavinking 21nope 21[roo... 阅读全文

posted @ 2017-09-27 13:22 ChavinKing 阅读(548) 评论(0) 推荐(0) 编辑

Hive中的窗口函数

摘要：简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.... 阅读全文

posted @ 2017-09-27 13:21 ChavinKing 阅读(2942) 评论(0) 推荐(0) 编辑

Hive中的order by、sort by、distribute by、cluster by解释及测试

摘要：结论： order by:全局排序，这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法，只有一个reduce，可能造成renduce任务时间过长，在严格模式下，要求必须具备limit子句。 sort by：可以运行多个reduce，每个reduce内排序，默认升序排序。 distribut 阅读全文

posted @ 2017-09-27 13:20 ChavinKing 阅读(1157) 评论(0) 推荐(0) 编辑

hive桶表好处

摘要：对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。所谓Hive中的分桶，实际就是指的MapReduce中的分区。根据Reduce的数量，分成不同个数的文件。我们先准备我们将使用的分桶表的数据.1,jack,2016/11/112,... 阅读全文

posted @ 2017-09-27 13:19 ChavinKing 阅读(947) 评论(0) 推荐(0) 编辑

公告

欢迎订阅笔者技术公众号：ByteLabs，更多干货等待你的探索！

扫码关注微信公众号，更多干货等你探索

昵称： ChavinKing
园龄： 10年6个月
粉丝： 95
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (481)

相册 (1)

icon(1)

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (481)

相册 (1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论