摘要: SQOOP是用于对数据进行导入导出的。(1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中1.把数据从mysql导入到hdfs(默认是/user/)中 sqoop import ... 阅读全文
posted @ 2015-04-19 23:20 孟想阳光 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的... 阅读全文
posted @ 2015-04-19 23:19 孟想阳光 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、c... 阅读全文
posted @ 2015-04-19 23:18 孟想阳光 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的。1.2 行键(row key),类似于MySQL中的主键。 行键是HBase表天然自带的。1.3 列族(column family),列的集合。 HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的。 H... 阅读全文
posted @ 2015-04-19 23:17 孟想阳光 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。2.如何搭建ZooKeeper服务器集群2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,设置环境变量... 阅读全文
posted @ 2015-04-19 23:14 孟想阳光 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 1.hadoop的分布式安装过程1.1 分布结构主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker1.2 各节点重新产生ssh加密文件1.3 编辑各个节... 阅读全文
posted @ 2015-04-19 23:13 孟想阳光 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect();info = jobClient.submitJobInternal(conf);(2)在conn... 阅读全文
posted @ 2015-04-19 23:12 孟想阳光 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 1.hadoop的伪分布安装1.1 设置ip地址执行命令service network restart验证:ifconfig1.2 关闭防火墙执行命令service iptables stop验证:service iptables status1.3关闭防火墙的自动运行执行命令chkconfig i... 阅读全文
posted @ 2015-04-19 23:10 孟想阳光 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 1.通过远程工具登陆到linux后,所在的位置是当前登录用户的家目录(home directory)。2.家目录的符号用~表示。3.linux的文件系统是一个树结构。 linux文件系统的树根成为根目录,使用符号"/"表示。 linux文件系统中使用符号".."表示上级目录。 linux文件系... 阅读全文
posted @ 2015-04-19 23:09 孟想阳光 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 过拟合 阅读全文
posted @ 2015-04-19 16:03 孟想阳光 阅读(1063) 评论(0) 推荐(0) 编辑
摘要: Eclipse插件fatjar 阅读全文
posted @ 2015-04-19 15:04 孟想阳光 阅读(132) 评论(0) 推荐(0) 编辑
摘要: linux中文乱码 阅读全文
posted @ 2015-04-19 14:58 孟想阳光 阅读(284) 评论(0) 推荐(0) 编辑
摘要: hadoop报错:org.apache.hadoop.hdfs.DFSClient:Failed to close file org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException) 阅读全文
posted @ 2015-04-19 14:51 孟想阳光 阅读(268) 评论(0) 推荐(0) 编辑