摘要:
SQOOP是用于对数据进行导入导出的。(1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中1.把数据从mysql导入到hdfs(默认是/user/)中 sqoop import ... 阅读全文
摘要:
1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的... 阅读全文
摘要:
1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、c... 阅读全文
摘要:
1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的。1.2 行键(row key),类似于MySQL中的主键。 行键是HBase表天然自带的。1.3 列族(column family),列的集合。 HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的。 H... 阅读全文
摘要:
1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。2.如何搭建ZooKeeper服务器集群2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,设置环境变量... 阅读全文
摘要:
1.hadoop的分布式安装过程1.1 分布结构主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker1.2 各节点重新产生ssh加密文件1.3 编辑各个节... 阅读全文
摘要:
问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect();info = jobClient.submitJobInternal(conf);(2)在conn... 阅读全文
摘要:
1.hadoop的伪分布安装1.1 设置ip地址执行命令service network restart验证:ifconfig1.2 关闭防火墙执行命令service iptables stop验证:service iptables status1.3关闭防火墙的自动运行执行命令chkconfig i... 阅读全文
摘要:
1.通过远程工具登陆到linux后,所在的位置是当前登录用户的家目录(home directory)。2.家目录的符号用~表示。3.linux的文件系统是一个树结构。 linux文件系统的树根成为根目录,使用符号"/"表示。 linux文件系统中使用符号".."表示上级目录。 linux文件系... 阅读全文
摘要:
过拟合 阅读全文
摘要:
Eclipse插件fatjar 阅读全文
摘要:
linux中文乱码 阅读全文
摘要:
hadoop报错:org.apache.hadoop.hdfs.DFSClient:Failed to close file org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException) 阅读全文