03 2015 档案
摘要:0.上传日志文件到linux中,通过flume将文件收集到hdfs中。执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,...
阅读全文
摘要:1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类...
阅读全文
摘要:(1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)(2).JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId(3).client将jar包写入到HDFS当中(path = hdfs上的地址 +...
阅读全文
摘要:基本格式 :* * * * * command分 时 日 月 周 命令第1列表示分钟1~59 每分钟用*或者 */1表示第2列表示小时1~23(0表示0点)第3列表示日期1~31第4列表示月份1~12第5列标识号星期0~6(0表示星期天)第6列要运行的命令crontab文件的一些...
阅读全文
摘要:1.安装Pig将pig添加到环境变量当中2.pig使用首先将数据库中的数据导入到HDFS上sqoop import --connect jdbc:mysql://192.168.1.10:3306/cloud --username root --password JChubby123 --table...
阅读全文
摘要:hive是依赖于hdfs和yarn的一个数据仓库数据库和数据仓库的区别:数据库在存储数据的同时,允许实时的增删改查等操作数据仓库在存储数据的同时还执行着计算和分析数据的工作,但是并不能实时的进行增删改等操作,如果需要对数据进行更新则需要将数据下载下来更新之后再放入数据仓库中,是一次写入多次读取的过程...
阅读全文
摘要:1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了)注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下让hbase节点知道hdfs的映射关系,也可以在hbase-site.xml中配置3.1修改hb...
阅读全文
摘要:sqoop只要安装到集群中的一台节点就可以了1.上传sqoop到节点中2.安装和配置在添加sqoop到环境变量到/etc/profile中将数据库连接驱动拷贝到$SQOOP_HOME/lib里3.使用第一类:数据库中的数据导入到HDFS上sqoop import --connect jdbc:mys...
阅读全文
摘要:hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译集群...
阅读全文
摘要:使用hadoop版本为2.2.0倒排索引简单的可以理解为全文检索某个词例如:在a.txt 和b.txt两篇文章分别中查找统计hello这个单词出现的次数,出现次数越多,和关键词的吻合度就越高现有a.txt内容如下:hello tomhello jerryhello kittyhello worldh...
阅读全文
摘要:修改主机名和IP的映射关系vi /etc/hosts 192.168.61.134 hadoop关闭防火墙#查看防火墙状态service iptables status#关闭防火墙service iptables stop#查看防火墙开机启动状态chkconfig iptables --list#关...
阅读全文