摘要: 有时,数据可以容易的存储在hive中,但是要导入到hbase里,可以不用写MR程序来操作,可以使用hive on hbase方式来创建相应的表关联关系来将hive中的数据导入到对应的hbase的表里,如下描述: 可以参考 hive与hbase关联表 1 、首先创建一张临时hive 内表: 2、将准备 阅读全文
posted @ 2017-09-19 10:28 新际航 阅读(1444) 评论(0) 推荐(0) 编辑
摘要: hadoop启动检查副本块数,就会进入safemode safemode的相关情况 虽然不能进行修改文件的操作,但是可以浏览目录结构、查看文件内容的。 在命令行下是可以控制安全模式的进入、退出和查看的。 命令 hadoop dfsadmin -safemode get 查看安全模式状态 命令 had 阅读全文
posted @ 2017-09-12 14:07 新际航 阅读(11100) 评论(0) 推荐(0) 编辑
摘要: 这三个数据集看似经常用,但是真正归纳总结的时候,很容易说不出来 三个之间的关系与区别参考我的另一篇blog http://www.cnblogs.com/xjh713/p/7309507.html 则三个用代码转换如下: 1.RDD -> Dataset val ds = rdd.toDS()2. 阅读全文
posted @ 2017-09-06 10:11 新际航 阅读(868) 评论(0) 推荐(0) 编辑
摘要: 在操作linux时,虽然可以对linux配置免秘钥登录,但是在配置免密码登录之前,是需要登录到其他节点主机的,这里提供一种类似ssh的方式,可以在命令后面加上相应的参数来设置你将要登录的远程主机的密码,且这个命令是与ssh结合使用 安装依赖gcc或者g++环境,确保环境正常 下载sshpass包 h 阅读全文
posted @ 2017-09-05 16:08 新际航 阅读(9526) 评论(0) 推荐(0) 编辑
摘要: 国外地址yum源下载慢,下到一半就断了,就这个原因就修改它为国内yum源地址 国内也就是ali 与 网易 以centos7为例 ,以 修改为阿里的yum源 1. 备份本地yum源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS 阅读全文
posted @ 2017-08-31 15:19 新际航 阅读(71266) 评论(5) 推荐(1) 编辑
摘要: kafka一直在大数据中承受着数据的压力也扮演着对数据维护转换的角色,下面重点介绍kafka大致组成及其partition副本的分配原则: 文章参考: http://www.linkedkeeper.com/detail/blog.action?bid=1016 Kafka是最初由Linkedin公 阅读全文
posted @ 2017-08-18 10:40 新际航 阅读(18907) 评论(2) 推荐(4) 编辑
摘要: sqoop是一个介于分布式数据系统与关系型系统之间数据转换的一个数据转换工具 常用命令集sqoop2中sqoop-shell 创建link、job sqoop:001> show link 显示所有链接 sqoop:001> carete link --cid 1床架连接 sqoop:000> de 阅读全文
posted @ 2017-08-15 17:18 新际航 阅读(644) 评论(0) 推荐(0) 编辑
摘要: spark中RDD、DataFrame、DataSet都是spark的数据集合抽象,RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是 阅读全文
posted @ 2017-08-08 23:02 新际航 阅读(1759) 评论(0) 推荐(0) 编辑
摘要: zookeeper的选举过程大致如下: zookeeper的选举过程,就是选出一个在n/2+1个节点中选出一个节点为主节点的过程。比如,当我们启动一个有5个节点的zookeeper集群的时候。首先启动server1,然后server1选举自己为leader,但是现在只有1个节点,所以无法确定lead 阅读全文
posted @ 2017-08-08 22:40 新际航 阅读(1027) 评论(2) 推荐(0) 编辑
摘要: num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你 阅读全文
posted @ 2017-08-08 22:38 新际航 阅读(21598) 评论(2) 推荐(2) 编辑