09 2013 档案

摘要:最近在用cloudera Manager来 在几个虚拟机上进行hadoop 的安装,总结一下遇到的问题。1 似乎没有 start-balancer.sh 命令 似乎安装包中没有这个命令 怎么做集群的负载均衡还是一个问题。 阅读全文
posted @ 2013-09-27 18:18 谷雨· 阅读(4452) 评论(0) 推荐(0) 编辑
摘要:1 hadoop fs 这个是FS shell 提供的 。上传下载文件 查看文件大小 改变文件权限都用这个命令。 具体命令的 用法可以到这个文档来查询 http://hadoop.apache.org/docs/r0.19.1/cn/hdfs_shell.html2 hadoop dfsadmin (在CH4版本中这个命令改为 hdfs dfsadmin ) 注意设置文件夹大小的命令。 查询文件夹是否设置了大小限制的命令为 hadoop fs -count -q /user/xxx3 fsck命令 不过现在还没有感觉这个命令有什么特殊的地方。4start-balancer.sh... 阅读全文
posted @ 2013-09-27 18:06 谷雨· 阅读(468) 评论(0) 推荐(0) 编辑
摘要:转自 http://www.cppblog.com/koson/archive/2010/07/19/120773.html hive简介 hive是一个基于hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。我们可以把hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在HDFS中的。Hive经过对语句进行解析和转换,最终生成一系列基于hadoop的map/reduce任务,通过执行这些任务完成数据处理。H... 阅读全文
posted @ 2013-09-26 16:10 谷雨· 阅读(1825) 评论(0) 推荐(0) 编辑
摘要:背景:前几天拿来apache日志,用hive的正则进行匹配,发现匹配出来的字段算是NULL,但是我用RegexBuddy工具显示能够匹配的到啊!例子如下(我拿正常的apache日志来比较,我的apache日志格式被更改过)1、apache日志格式:127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 23262、正则表达式:([^ ]*) ([^ ]*) ([^ ]*) (-|\[[^\]]*\]) ([^ \"]*|\"[^\"]*\& 阅读全文
posted @ 2013-09-26 16:04 谷雨· 阅读(27835) 评论(0) 推荐(0) 编辑
摘要:上篇文章说过,hadoop实际上就是就是一个liunx虚拟机,它的文件操作命令同linux,而它的用户呢?它的用户实际上就是linux主机的用户。这里我们做的例子就是:新建一个liunx用户,并为该linux用户授权hadoop相关权限。1、以root身份登陆,新建一个linux用户,用户名为hauser,并授予相关权限 useradd hauser —–新建linux用户 hauser passwd hadoop —为新建的用户hauser设置初始密码 chown -R hadoop:hauser /opt/hadoop —将hadoop的相关操作权限授予hauser hadoop ... 阅读全文
posted @ 2013-09-25 14:28 谷雨· 阅读(1617) 评论(0) 推荐(0) 编辑
摘要:hinking in Java对classpath作用的解释 Java 解释器的工作程序如下: 首先,它找到环境变量CLASSPATH(将Java 或者具有Java 解释能力的工具——如浏览器——安装到机器中时,通过操作系统进行设定)。CLASSPATH 包含了一个或多个目录,它们作为一种特殊的“根”使用,从这里展开对.class 文件的搜索。从那个根开始,解释器会寻找包名,并将每个点号(句点)替换成一个斜杠,从而生成从CLASSPATH 根开始的一个路径名(所以package foo.bar.baz 会变成foo\bar\baz 或者foo/bar/baz;具体是正斜杠还是反斜杠由操作系.. 阅读全文
posted @ 2013-09-23 12:30 谷雨· 阅读(113295) 评论(2) 推荐(7) 编辑