Hadoop - 随笔分类 - MSTK

摘要：在Eclipse下新建一个Map/Reduce项目，并将以下jar添加到Build path：程序代码：以上程序调用HBAse的API，实现了新建一张表，并随机向表里插入数据。阅读全文

posted @ 2017-04-16 16:42 MSTK 阅读(2489) 评论(0) 推荐(0)

HDFS API

摘要：Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类： (1)Configuration：HDFS的配置信息； (2)FileSystem: HDFS文件系统； (3)Path: HDFS文件或目录的路径； (4)FileSta 阅读全文

posted @ 2017-04-08 16:23 MSTK 阅读(581) 评论(0) 推荐(0)

Wrong FS: hdfs://xxx/xxx expected: file:///

摘要：Eclipse调用HDFS API上传文件时出现了如下错误：解决的办法是把Hadoop集群的hdfs-site.xml和core-site.xml两个配置文件复制到项目的bin目录下面，就可以正常运行了。阅读全文

posted @ 2017-04-08 16:09 MSTK 阅读(3075) 评论(0) 推荐(0)

Eclipse远程连接Hadoop

摘要：Windows下面调试程序比在Linux下面调试方便一些，于是用Windows下的Eclipse远程连接Hadoop。 1. 下载相应版本的hadoop-eclipse-plugin插件，复制到eclipse的plugins目录下面，再次启动Eclipse。 2. 解压hadoop的.tar.gz文阅读全文

posted @ 2017-04-05 11:07 MSTK 阅读(4202) 评论(0) 推荐(0)

Hadoop创建新用户

摘要：HDFS本身并没有提供用户名、组等的创建和管理，在客户端操作Hadoop时，Hadoop自动识别执行命令所在的进程的用户名和用户组，然后检查是否具有权限。启动Hadoop的用户即为超级用户，可以进行所有操作。由于想在Windows 7的Eclipse里面操作Hadoop，Windows 7的用户是阅读全文

posted @ 2017-04-03 14:56 MSTK 阅读(9519) 评论(0) 推荐(0)

NameNode重新格式化以后DataNode不能启动

摘要：最近重新格式化NameNode以后，发现几个DataNode都不能启动了。这是因为dfs.name.dir路径下面有一个current/VERSION文件，里面有一个clusterID，重新格式化以后，clusterID和以前的不一样了，需要把新的clusterID复制到所有DataNode的df 阅读全文

posted @ 2017-03-26 14:33 MSTK 阅读(1290) 评论(0) 推荐(0)

Pig拒绝连接错误

摘要：运行Pig时出现错误：这是因为没有启动jobhistoryserver，在mapred-site.xml中增加设置：然后再启动jobhistoryserver：以上命令需要在${HADOOP_HOME}/sbin/下执行。阅读全文

posted @ 2017-03-25 17:16 MSTK 阅读(1028) 评论(0) 推荐(0)

Pig jline.Terminal错误

摘要：运行Pig时出现这个错误：解决的办法是把${HADOOP_HOME}/share/hadoop/yarn/lib下的jline-2.1.1.jar删除掉，再重启Hadoop就可以了。阅读全文

posted @ 2017-03-25 17:07 MSTK 阅读(397) 评论(0) 推荐(0)

Hive Web Interface的安装

摘要：Hive Web Interface，简称hwi，是Hive的Web接口。首先，安装ant，下载ant，解压，并在/etc/profile中设置：然后修改${HIVE_HOME}/conf/hive-site.xml文件，加上下面几个设置：但是，${HIVE_HOME}/lib下默认是没有那阅读全文

posted @ 2017-03-18 16:16 MSTK 阅读(466) 评论(0) 推荐(0)

The ECDSA host key for XXX has changed

摘要：运行Hadoop时出现了：导致运行失败。仔细分析后发现，这是因为以前192.168.1.201的主机名为master，后来把192.168.1.202改名为master，由于两台主机的公钥不一样，所以提示DNS欺骗(网络中有主机冒充master)，或者master的IP地址和公钥同时改变了。解决阅读全文

posted @ 2017-03-14 15:34 MSTK 阅读(2122) 评论(0) 推荐(0)

Hive表的建立和导入导出数据

摘要：Hive是Hadoop的常用工具之一，Hive查询语言(HiveQL)的语法和SQL类似，基本实现了SQL-92标准。 1. 表的建立编写以下的文件：保存为test.hql，该文件指定了表的结构和分隔符。Hive的数据类型除了INT、STRING、FLOAT等基本类型以外，还有三种复杂数据类型：阅读全文

posted @ 2017-02-28 18:17 MSTK 阅读(4024) 评论(0) 推荐(0)

CDH的安装和设置

摘要：采用伪分布模式安装和设置CDH，前提是已经安装了Java和SSH。 1. 下载hadoop-2.6.0-cdh5.9.0，复制到/opt/下，再解压； 2. 进入/opt/hadoop-2.6.0-cdh5.9.0/etc/hadoop/，在hadoop-env.sh中添加：修改配置文件core- 阅读全文

posted @ 2017-02-16 20:05 MSTK 阅读(2446) 评论(0) 推荐(0)

Hadoop的安装与设置(1)

摘要：在Ubuntu下安装与设置Hadoop的主要过程。 1. 创建Hadoop用户创建一个用户，用户名为hadoop，在home下创建该用户的主目录，就不详细介绍了。 2. 安装Java环境下载Linux环境下的JDK：jdk-8u111-linux-x64.tar.gz。在usr下创建一个jav 阅读全文

posted @ 2016-12-30 16:47 MSTK 阅读(371) 评论(0) 推荐(0)

代码空间

Computer Vision/Machine Learning/Evolutionary Computation...

随笔分类 - Hadoop

公告