hadoop小象 - 随笔分类 - h2内存数据库

我是怎么玩hadoop的(二)--构造模块

摘要：在写这个模块之前，已经用过hadoop集群完成了一些小测试，但是还希望了解下更深层的东西，我想大家一定对namenode,datanode,secondary namenode,jobtracker,he tasktracker有了一定的了解，我想对我我来说也只是单纯的知道，但不上深入，今天想总结下这几个构造模块在hadoop的具体用法和意义。hadoop的守护进程包括：namenode 名字节点；datanode 数据节点；secondary namenode 次名字节点；jobtracker 作业跟踪节点；tasktracker 任务跟踪节点；1.namenode：无可厚非的是：name. 阅读全文

posted @ 2011-12-10 14:42 h2内存数据库阅读(913) 评论(0) 推荐(0) 编辑

hive中的正则表达式

摘要：这几天，忙着做一些测试。昨天刚刚做了一个hive的小测试，但是hive中的正则表达式写法让我痛苦不已，这里记录下问题和一些想法。背景：前几天拿来apache日志，用hive的正则进行匹配，发现匹配出来的字段算是NULL，但是我用RegexBuddy工具显示能够匹配的到啊！例子如下(我拿正常的apache日志来比较，我的apache日志格式被更改过)1、apache日志格式：127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 2、正则表达式：([^ ]*) 阅读全文

posted @ 2011-12-07 10:26 h2内存数据库阅读(4044) 评论(0) 推荐(0) 编辑

11G数据的hive初测试

摘要：首先，看到标题，我想就会有人喷我，①11G对于hadoop而言不值一提②做耗时测试本没有必要，毕竟hadoop用于线下系统。我的想法：没那么复杂，只是想看下hadoop的文件处理能力和表现出的问题，只是单纯的享受这个解决问题并且得到结果的快感。不那么多废话啦!直接进入正题：1、数据来源：apache的日志，接近900万条数据，大小为11个G。2、创建表，并用正则匹配的方式导入数据，(这里hive的正则和普通正则，路由不同，之后会发新的博客讨论这个问题：(hive的正则)http://blog.csdn.net/lengzijian/article/details/7048575)：这里正则值提阅读全文

posted @ 2011-12-06 18:00 h2内存数据库阅读(314) 评论(0) 推荐(0) 编辑

hive的Specified key was too long; max key length is 767 bytes问题解决

摘要：上次安装hive时遇到很多问题，最后遗留下一个没有解决的问题，最后通过询问得以解决在这记录下：方便遇到同样问题的人：问题阐述在安装完hive后，执行：[root@localhost hive]# hive Hive history file=/tmp/root/hive_job_log_root_201112071228_90457717.txt hive> 创建表：hive> CREATE TABLE test ( time string, ip string, url string); OK Time taken: 0.303 seconds删除表报错：NestedThrowa 阅读全文

posted @ 2011-12-06 12:33 h2内存数据库阅读(5081) 评论(0) 推荐(0) 编辑

我是怎么玩hadoop的(一)--运行自己的mapreduce

摘要：单拿标题来讲，看来有点装x，但是没有恶意，知识记录自己的学习过程，希望能碰到一些志同道合的人，一起讨论。首先，我们要理解：什么是hadoop？给人的第一感觉就一个字“云”，似乎带着点神奇的色彩，不可否认hadoop有他独特的地方，但也没那么神乎其神。他是一个开源框架，可以编写和运行分布式应用处理大规模数据，通过建立hadoop集群和运行一些mapred例子，我所感到只有就个字：“方便”、“健壮”、“可扩展”、“简单”。hadoop自身带有文件系统，可以处理大规模数据，相比较下：会和sql数据库有什么区别呢？1.随着数据量的增大，提高数据库配置的开销越来越大，2倍于pc机的服务器的价格远远高于2 阅读全文

posted @ 2011-12-05 21:39 h2内存数据库阅读(570) 评论(0) 推荐(0) 编辑

pig安装及问题

摘要：一篇毫无技术含量的pig安装，大家在安装pig前，想必已经安装好了hadoop，这里就不在强调java的版本和JAVA_HOME的配置问题了1.下载pig包：(我的网盘里面pig-0.9.1)http://115.com/file/dneclpetapache版本：http://pig.apache.org/2.解压文件：# tar -zxvf pig-0.9.1.tar.gz3.配置/etc/profitexport PIG_INSTALL=/usr/pig/pig-0.9.1 export PATH=$PATH:$PIG_INSTALL/bin export PIG_HADOOP_VERS 阅读全文

posted @ 2011-12-05 17:59 h2内存数据库阅读(652) 评论(0) 推荐(0) 编辑

Hive安装及问题解决

摘要：刚刚安装好hadoop迫不及待要玩下hive，所以自己找了些资料，安装了下hive，这里记录详细的安装过程和碰到的问题：1.在安装hadoop之前首先确定hadoop已经安装成功，具体安装方法请参考hadoop安装。2.下载hive版本我下载的是下载地址为http://hive.apache.org/releases.htm解压文件：tar -zxvf hive-0.7.0-bin.tar.gz3.配置环境变量：[root@localhost hive]# vim /etc/profileexport HADOOP_HOME=/root/hadoop-0.20.2export PATH=$ 阅读全文

posted @ 2011-12-05 16:46 h2内存数据库阅读(574) 评论(0) 推荐(0) 编辑

hadoop集群搭建的常见错误

摘要：安装hadoop常见错误整理：（这里会不断地添加，也希望大家多提一些错误一起解决）1.Hadoop初始化错误INFO org.apache.hadoop.ipc.Client: Retryingconnect to server: uec-fe/16.157.63.10:9000. Already tried 0 time(s). 这种情况对数出现在启动namenode时成功，但是运行job时就会一直连接。通过查看TaskTracker日志可以看到不停地Retryingconnect,但是一直连不上，有如下解决办法： A:在启动hadoop前没有格式化namenode，需要再每次启动前格式化阅读全文

posted @ 2011-12-05 14:47 h2内存数据库阅读(1267) 评论(0) 推荐(0) 编辑

hadoop集群搭建(hadoop)

摘要：首先说一下配置环境：三台电脑192.168.30.149 hadoop149 namenode和jobtracker ###因为149机器稍微好一点 192.168.30.150 hadoop150 datanode和TaskTracker 192.168.30.148 hadoop150 datanode和TaskTracker配置ssh无需密码登陆：$ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys我的master在149可以吧149 阅读全文

posted @ 2011-12-05 14:31 h2内存数据库阅读(821) 评论(0) 推荐(0) 编辑

hadoop集群搭建(ip设置和jdk安装)

摘要：刚刚学习hadoop，安装有点吃力，希望通过记录过程能够给遇到同样问题的人一个答案。话不多说直接进入主题。在公司拿来了三台电脑首先安装linux系统，这里不多说细节，唯一注意的ip设置好就可以了。下面介绍我建起hadoop集群的过程(非常详细因为是菜鸟，高手就不用看了)：1.配置ip：可以写文件，也可以用界面方式安装，这里我用的是setup命令（因为方便），运行setup出现如下界面：进入Networkconfiguration（可用Tab键切换到run Tool）：配置eth0网卡(到Use DHCP时按‘空格’即可编写ip地址)：配置完成后退出；执行[root@localhost~]# / 阅读全文

posted @ 2011-12-05 14:22 h2内存数据库阅读(549) 评论(0) 推荐(0) 编辑

h2内存数据库

随笔分类 - hadoop小象