云计算hadoop - 随笔分类 - 夏至冬末

Hive深入浅出

摘要：1. Hive是什么1) Hive是什么？这里引用 Hive wiki 上的介绍：Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a ... 阅读全文

posted @ 2014-02-19 10:55 夏至冬末阅读(489) 评论(0) 推荐(0)

深入解析：分布式系统的事务处理经典问题及模型(转载分享)

摘要：摘要：分布式系统需要在数据完整、一致性和性能间做平衡。本文系统介绍了处理分布式数据一致性的技术模型，如：Master-Slave，Master-Master，2PC/3PC，经典的将军问题，Paxos，以及Dynamo的NRW和VectorClock的模型。编者按：数据服务的高可用是所有企业都想拥有... 阅读全文

posted @ 2014-01-21 15:22 夏至冬末阅读(398) 评论(0) 推荐(0)

数据分析≠Hadoop+NoSQL，不妨先看完善现有技术的10条捷径(分享)

摘要：Hadoop让大数据分析走向了大众化，然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前，是否已经将现有技术推向极限？这里总结了对Hadoop投资前可以尝试的10个替代方案，省时、省钱、省力，何乐而不为？让业务搭乘大数据技术确实是件非常有吸引力的事情，而Apache Hado... 阅读全文

posted @ 2013-12-23 16:17 夏至冬末阅读(183) 评论(0) 推荐(0)

你的数据根本不够大，别老扯什么Hadoop了

摘要：本文原名“Don’t use Hadoop when your data isn’t that big ”，出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析... 阅读全文

posted @ 2013-10-10 21:13 夏至冬末阅读(236) 评论(0) 推荐(0)

Storm集群安装详解

摘要：storm有两种操作模式: 本地模式和远程模式。本地模式：你可以在你的本地机器上开发测试你的topology，一切都在你的本地机器上模拟出来;远端模式：你提交的topology会在一个集群的机器上执行。本文以Twitter Storm官方Wiki为基础，详细描述如何快速搭建一个Storm集群，其中... 阅读全文

posted @ 2013-07-25 19:58 夏至冬末阅读(977) 评论(0) 推荐(0)

海量数据处理算法—Bloom Filter

摘要：1. Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是... 阅读全文

posted @ 2012-08-14 18:40 夏至冬末阅读(237) 评论(0) 推荐(0)

海量数据处理

摘要：海量数据处理是基于海量数据上的存储、处理、操作。所谓海量，就是数据量很大，可能是TB级别甚至是PB级别，导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据，我们想到的最简单方法即是分治法，即分开处理，大而化小，小而治之。我们也可以想到集群分布式处理。1 海量数据的存储：为大... 阅读全文

posted @ 2012-08-11 11:55 夏至冬末阅读(337) 评论(0) 推荐(0)

PHP通过Thrift操作Hbase

摘要：HBase是一个开源的NoSQL产品，它是实现了Google BigTable论文的一个开源产品，和Hadoop和HDFS一起，可用来存储和处理海量column family的数据。官方网址是：http://hbase.apache.org一、HBase访问接口1. Native Java API... 阅读全文

posted @ 2012-02-27 07:58 夏至冬末阅读(328) 评论(0) 推荐(0)

Hadoop Hive与Hbase整合+thrift

摘要：1. 简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十... 阅读全文

posted @ 2012-02-22 09:47 夏至冬末阅读(982) 评论(0) 推荐(0)

MapReduce数据流

摘要：Hadoop的核心组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：ma... 阅读全文

posted @ 2012-02-16 17:29 夏至冬末阅读(231) 评论(0) 推荐(0)

用PHP编写Hadoop的MapReduce程序

摘要：Hadoop流虽然Hadoop是用java写的，但是Hadoop提供了Hadoop流，Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数.Hadoop流动关键是，它使用UNIX标准流作为程序与Hadoop之间的接口。因此，任何程序只要可以从标准输入流中读取数据，并且... 阅读全文

posted @ 2012-02-16 11:20 夏至冬末阅读(222) 评论(0) 推荐(0)

hadoop安全模式

摘要：hadoop安全模式在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也... 阅读全文

posted @ 2012-02-15 15:25 夏至冬末阅读(197) 评论(0) 推荐(0)

Hadoop HDFS分布式文件系统设计要点与架构

摘要：Hadoop简介：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed FileSystem），简称HDFS。HDFS有着高容错性的特点，... 阅读全文

posted @ 2012-02-15 14:23 夏至冬末阅读(170) 评论(0) 推荐(0)

HDFS写入和读取流程

摘要：一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thr... 阅读全文

posted @ 2012-02-14 23:50 夏至冬末阅读(334) 评论(0) 推荐(0)

Hadoop Hive sql语法详解

摘要：Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需要的... 阅读全文

posted @ 2012-02-14 09:37 夏至冬末阅读(570) 评论(0) 推荐(0)

谷歌三大核心技术（三）Google BigTable中文版

摘要：Bigtable：一个分布式的结构化数据存储系统译者：alex摘要Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Fi... 阅读全文

posted @ 2012-02-09 12:05 夏至冬末阅读(308) 评论(0) 推荐(0)

谷歌三大核心技术（二）Google MapReduce中文版

摘要：Google MapReduce中文版译者: alex 摘要MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Redu... 阅读全文

posted @ 2012-02-09 11:54 夏至冬末阅读(347) 评论(0) 推荐(0)

谷歌三大核心技术（一）The Google File System中文版

摘要：The Google File System中文版译者：alex摘要我们设计并实现了Google GFS文件系统，一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上，但是它依然了提供灾难冗余的能力，为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传... 阅读全文

posted @ 2012-02-09 11:14 夏至冬末阅读(270) 评论(0) 推荐(0)

HBase技术介绍

摘要：HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件... 阅读全文

posted @ 2012-02-09 10:42 夏至冬末阅读(190) 评论(0) 推荐(0)

hbase安装配置（整合到hadoop）

摘要：如果想详细了解hbase的安装：http://abloz.com/hbase/book.html 和官网http://hbase.apache.org/1. 快速单击安装在单机安装Hbase的方法。会引导你通过shell创建一个表，插入一行，然后删除它，最后停止Hbase。只要10分钟就可以完成以下... 阅读全文

posted @ 2012-02-09 10:16 夏至冬末阅读(311) 评论(0) 推荐(0)

随笔分类 - 云计算hadoop