2015 年 4月 19 日随笔档案 - 孟想阳光

2015年4月19日

摘要： SQOOP是用于对数据进行导入导出的。(1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中1.把数据从mysql导入到hdfs(默认是/user/)中 sqoop import ... 阅读全文

posted @ 2015-04-19 23:20 孟想阳光阅读(176) 评论(0) 推荐(0) 编辑

Hive

摘要： 1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据，同时可以查询hadoop中的数据。本质上讲，hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具，可以把SQL转换为MapReduce中的... 阅读全文

posted @ 2015-04-19 23:19 孟想阳光阅读(135) 评论(0) 推荐(0) 编辑

Pig

摘要： 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的，类似于初中做的数学题。3.Pig基本数据类型：int、long、float、double、c... 阅读全文

posted @ 2015-04-19 23:18 孟想阳光阅读(205) 评论(0) 推荐(0) 编辑

HBase

摘要： 1.HBase(NoSQL)的数据模型1.1 表(table)，是存储管理数据的。1.2 行键(row key)，类似于MySQL中的主键。行键是HBase表天然自带的。1.3 列族(column family)，列的集合。 HBase中列族是需要在定义表时指定的，列是在插入记录时动态增加的。 H... 阅读全文

posted @ 2015-04-19 23:17 孟想阳光阅读(143) 评论(0) 推荐(0) 编辑

ZooKeeper

摘要： 1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。2.如何搭建ZooKeeper服务器集群2.1 zk服务器集群规模不小于3个节点，要求各服务器之间系统时间要保持一致。2.2 在hadoop0的/usr/local目录下，解压缩zk....tar.gz，设置环境变量... 阅读全文

posted @ 2015-04-19 23:14 孟想阳光阅读(118) 评论(0) 推荐(0) 编辑

hadoop的分布式安装过程

摘要： 1.hadoop的分布式安装过程1.1 分布结构主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker1.2 各节点重新产生ssh加密文件1.3 编辑各个节... 阅读全文

posted @ 2015-04-19 23:13 孟想阳光阅读(118) 评论(0) 推荐(0) 编辑

mapreduce

摘要：问：在eclipse中的写的代码如何提交作业到JobTracker中的哪？答：(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect();info = jobClient.submitJobInternal(conf);(2)在conn... 阅读全文

posted @ 2015-04-19 23:12 孟想阳光阅读(113) 评论(0) 推荐(0) 编辑

hadoop的伪分布及节点介绍

摘要： 1.hadoop的伪分布安装1.1 设置ip地址执行命令service network restart验证:ifconfig1.2 关闭防火墙执行命令service iptables stop验证:service iptables status1.3关闭防火墙的自动运行执行命令chkconfig i... 阅读全文

posted @ 2015-04-19 23:10 孟想阳光阅读(430) 评论(0) 推荐(0) 编辑

linux常用命令

摘要： 1.通过远程工具登陆到linux后，所在的位置是当前登录用户的家目录(home directory)。2.家目录的符号用~表示。3.linux的文件系统是一个树结构。 linux文件系统的树根成为根目录，使用符号"/"表示。 linux文件系统中使用符号".."表示上级目录。 linux文件系... 阅读全文

posted @ 2015-04-19 23:09 孟想阳光阅读(158) 评论(0) 推荐(0) 编辑

过度拟合（overfilting）

摘要：过拟合阅读全文

posted @ 2015-04-19 16:03 孟想阳光阅读(1063) 评论(0) 推荐(0) 编辑

Eclipse将引用了第三方jar包的Java项目打包成jar文件

摘要： Eclipse插件fatjar 阅读全文

posted @ 2015-04-19 15:04 孟想阳光阅读(132) 评论(0) 推荐(0) 编辑

linux中文乱码

摘要： linux中文乱码阅读全文

posted @ 2015-04-19 14:58 孟想阳光阅读(284) 评论(0) 推荐(0) 编辑

hadoop超租约报错：

摘要： hadoop报错：org.apache.hadoop.hdfs.DFSClient:Failed to close file org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException) 阅读全文

posted @ 2015-04-19 14:51 孟想阳光阅读(268) 评论(0) 推荐(0) 编辑

孟想阳光

公告