摘要:
Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Map... 阅读全文
2014年10月3日 #
摘要:
Nutch1.2的安装与使用1、nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/2、nutch1.2目录bin:用于命令行运行的文件;conf:Nutch的配置文件;lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:... 阅读全文
摘要:
人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting... 阅读全文
摘要:
hadoop一代集群运行代码案例集群 一个 master,两个slave,IP分别是192.168.1.2、192.168.1.3、192.168.1.4 hadoop版本是1.2.1一、启动hadoop 进入hadoop的bin目录二、建立数据文件,并上传至hdfs1、 在文件目录为/home/h... 阅读全文
摘要:
Hadoop-1.2.1伪分布下 hive-0.10.0内嵌模式安装1、下载hive-0.10.0 网址是:http://archive.apache.org/dist/hive/hive-0.10.0/ 下载的安装包为:hive-0.10.0.tar.gz 2012-12-18 23:21 35M... 阅读全文
摘要:
数据挖掘简介一、什么是数据挖掘虽然有些数据挖掘技术非常新颖,但是数据挖掘本身并非一项新的技术:自从第一台计算机发明以来,人们就一直在计算机上分析数据,而且在此之前的数个世纪里,人们一直在没有计算机的情况下分析数据。多年来,数据挖掘有许多不同的名称,诸如知识发现、商业智能、预测建模及预测分析等等。数据... 阅读全文