Hadoop - 随笔分类 - 残雪余香

【转】大数据分析（Big Data OLAP）引擎Dremel, Tenzing 以及Impala

摘要：引自：http://blog.csdn.net/xhanfriend/article/details/8434896对于数据分析师来说，SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力，可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务，而MapReduce原本是大数据批处理计算框架，并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度：1.用一种更快的SQL执行引擎取代MapReduce。2.优化MapReduce，使其更适合OLAP查询。谷歌在这两种思路上都做出了先驱性工作。2010年，阅读全文

posted @ 2013-11-27 15:05 残雪余香阅读(1157) 评论(0) 推荐(0) 编辑

滴水穿石--运行Pydoop程序

摘要：运行Pydoop程序 Pydoop程序和其他的hadoop pipes应用程序一样，都需要一个工作的Hadoop集群，如果没有的话，你可以参考安装一个单机模式的Hadoop集群，将Hadoop集群配置成一个伪分布式模式，然后开启必须的守护进程。 pipes 命令行模式如下所示:${HADOOP_HOME}/bin/hadoop pipes -conf conf.xml -input input -output output inputpath 和 output 分别是Hadoop的上你的应用程序需要访问的输入数据路径和结果输出路径。从本地读入程序的配置文件，配置文件是一个如下所示的由键值对组. 阅读全文

posted @ 2012-12-24 22:21 残雪余香阅读(1485) 评论(0) 推荐(0) 编辑

滴水穿石--配置python光谱数据处理软件及Pydoop

摘要：1、安装scipy、numpy、pyfitssudo apt-get install python-scipysudo apt-get install python-numpysudo apt-get install python-pyfits测试安装是否成功：使用python命令进入命令行，然后分别输入：import scipy、import numpy、import pyfits是否有错，没有则正确2、安装pydoop前提：系统安装boost，检测，写一个c程序包含regex.hpp编译通过则安装完成，#include <boost/regex.hpp>安装boost：sudo 阅读全文

posted @ 2012-12-24 21:53 残雪余香阅读(1609) 评论(1) 推荐(0) 编辑

滴水穿石--Pydoop 架构和模块包介绍

摘要：1. 背景Hadoop支持Java以及C/C++开发，其中Hadoop Pipes(C++)支持MapReduce，而Hadoop libhdfs(C)支持HDFS的访问。但Python的解决方案仅能支持Hadoop部分功能，具体如下。Hadoop Streaming：1. Awkward编程风格;2.仅能编写Mapper和Reducer脚本，不能编写RecordReader/Writer，Partitioner脚本;3. 不能访问HDFS;4. 仅能处理文本数据流;Jython：1.支持不完整的标准库;2.大多数第三方包仅兼容CPython;3.不能使用C/C++扩展;Hadoop-base 阅读全文

posted @ 2012-12-23 21:14 残雪余香阅读(3533) 评论(0) 推荐(1) 编辑

滴水穿石--初识Hadoop

摘要：Hadoop介绍 Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data se 阅读全文

posted @ 2012-12-06 23:56 残雪余香阅读(578) 评论(0) 推荐(0) 编辑

残雪余香

公告

随笔分类 - Hadoop