瞌睡中的葡萄虎

sqoop操作之HIVE导出到ORACLE

摘要：示例数据准备hive中创建dept表create table dept(deptno int,dname string,loc string)row format delimited fields terminated by '\t' lines terminated by '\n' stored ... 阅读全文

posted @ 2014-08-06 17:35 瞌睡中的葡萄虎阅读(3197) 评论(0) 推荐(0) 编辑

sqoop操作之ORACLE导入到HIVE

摘要：导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \--username SCOTT --password tiger \--table EMP \--hive-import --create-hive... 阅读全文

posted @ 2014-08-06 17:23 瞌睡中的葡萄虎阅读(1938) 评论(0) 推荐(0) 编辑

sqoop操作之HDFS导出到ORACLE

摘要：注意：在导出前需要先创建待导出的表结构。如果导出的表在数据库中不存在则会报错；如果重复导出多次，表中的数据会重复；create table EMP_DEMO as select * from EMP where 1=2;create table SALGRADE_DEMO as select * f... 阅读全文

posted @ 2014-08-06 16:30 瞌睡中的葡萄虎阅读(4588) 评论(0) 推荐(0) 编辑

sqoop操作之Oracle导入到HDFS

摘要：导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \--username SCOTT --password tiger \--table EMP -m 1;查看执行结果：hadoop fs -cat /u... 阅读全文

posted @ 2014-08-06 15:57 瞌睡中的葡萄虎阅读(5683) 评论(0) 推荐(0) 编辑

sqoop产生背景及概述

摘要： sqoop产生背景多数是用Hadoop技术处理大数据业务的企业有大量的数据存储在传统的关系型数据库（RDBMS）中；由于缺乏工具的支持、对Hadoop和传统数据库系统中的数据进行相互传输是一件十分困难的事情；Sqoop就是一个在RDBMS和Hadoop之间进行数据传输的项目；sqoop概述sqoop... 阅读全文

posted @ 2014-08-06 15:34 瞌睡中的葡萄虎阅读(606) 评论(0) 推荐(0) 编辑

Spark On YARN

摘要：为什么要使用YARN?数据共享、资源利用率、更方便的管理集群等。详情参见：http://www.cnblogs.com/luogankun/p/3887019.htmlSpark YARN版本编译编译hadoop对应的支持YARN的Spark版本export MAVEN_OPTS="-Xmx2g -... 阅读全文

posted @ 2014-08-03 16:04 瞌睡中的葡萄虎阅读(1626) 评论(0) 推荐(0) 编辑

MapReduce On YARN

摘要： MapReduce计算框架将计算过程分为两个阶段：Map和Reduce Map阶段并行处理输入数据； Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段 Map Task将数据写到本地磁盘； Reduce Task从每个Map Task上读取一份数据；仅适合离... 阅读全文

posted @ 2014-08-03 14:41 瞌睡中的葡萄虎阅读(1594) 评论(1) 推荐(2) 编辑

Hadoop2.0构成之YARN

摘要： YARN产生背景Hadoop1.x中的MapReduce构成图如下：在Hadoop1.x中MapReduce是Master/Slave结构，在集群中的表现形式为：1个JobTracker带多个TaskTracker；JobTracker：负责资源管理和作业调度；TaskTracker：定期向JobT... 阅读全文

posted @ 2014-08-02 15:08 瞌睡中的葡萄虎阅读(1207) 评论(0) 推荐(1) 编辑

Hadoop2.0构成之HDFS2.0

摘要： HDFS2.0之HA主备NameNode： 1、主NameNode对外提供服务，备NameNode同步主NameNode元数据，以待切换； 2、主NameNode的信息发生变化后，会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中； 3、所有DataNode同时向两个Name... 阅读全文

posted @ 2014-08-02 15:01 瞌睡中的葡萄虎阅读(632) 评论(0) 推荐(0) 编辑

Hadoop2.0的基本构成总览

摘要： Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成： HDFS、MapReduce(资源管理和任务调度)；运行时环境为JobTracker和TaskTracker；Hadoop2.0构成：HDFS、MapReduce/其他计算框架、YARN；运行时环境为YARN 1、HDFS... 阅读全文

posted @ 2014-08-02 14:52 瞌睡中的葡萄虎阅读(1821) 评论(0) 推荐(1) 编辑

瞌睡中的葡萄虎

公告