摘要:引自:http://blog.csdn.net/xhanfriend/article/details/8434896对于数据分析师来说,SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力,可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务,而MapReduce原本是大数据批处理计算框架,并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度:1.用一种更快的SQL执行引擎取代MapReduce。2.优化MapReduce,使其更适合OLAP查询。谷歌在这两种思路上都做出了先驱性工作。2010年,
阅读全文
随笔分类 - Hadoop
开启云计算之门
摘要:运行Pydoop程序 Pydoop程序和其他的hadoop pipes应用程序一样,都需要一个工作的Hadoop集群,如果没有的话,你可以参考安装一个单机模式的Hadoop集群,将Hadoop集群配置成一个伪分布式模式,然后开启必须的守护进程。 pipes 命令行模式如下所示:${HADOOP_HOME}/bin/hadoop pipes -conf conf.xml -input input -output output inputpath 和 output 分别是Hadoop的上你的应用程序需要访问的输入数据路径和结果输出路径。从本地读入程序的配置文件,配置文件是一个如下所示的由键值对组.
阅读全文
摘要:1、安装scipy、numpy、pyfitssudo apt-get install python-scipysudo apt-get install python-numpysudo apt-get install python-pyfits测试安装是否成功:使用python命令进入命令行,然后分别输入:import scipy、import numpy、import pyfits是否有错,没有则正确2、安装pydoop前提:系统安装boost,检测,写一个c程序包含regex.hpp编译通过则安装完成,#include <boost/regex.hpp>安装boost:sudo
阅读全文
摘要:1. 背景Hadoop支持Java以及C/C++开发,其中Hadoop Pipes(C++)支持MapReduce,而Hadoop libhdfs(C)支持HDFS的访问。但Python的解决方案仅能支持Hadoop部分功能,具体如下。Hadoop Streaming:1. Awkward编程风格;2.仅能编写Mapper和Reducer脚本,不能编写RecordReader/Writer,Partitioner脚本;3. 不能访问HDFS;4. 仅能处理文本数据流;Jython:1.支持不完整的标准库;2.大多数第三方包仅兼容CPython;3.不能使用C/C++扩展;Hadoop-base
阅读全文
摘要:Hadoop介绍 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data se
阅读全文