逖靖寒的世界

每天进步一点点

导航

上一页 1 2 3 4 5 6 7 8 ··· 19 下一页

2010年5月26日 #

反转Cassandra索引

摘要: 问题通过前面的文章:《谈谈Cassandra的客户端》和《大话Cassandra数据模型》我们已经了解了Cassandra的数据模型和编程接口的情况。假如我们在实际的应用中我们的数据是这样保存的: 每一个key对应了一些列的Column:port,Version,Service,Status等等。通过某一个key,我们能够找到和这个key相关的所有Column的值。假设我们要找到Column的na... 阅读全文

posted @ 2010-05-26 08:29 逖靖寒 阅读(3340) 评论(3) 推荐(4) 编辑

2010年5月21日 #

为什么在Cassandra版本0.6.1中不适合使用Binary Memtable的方式导入大量的数据。

摘要: 在上一篇文章《使 用Binary Memtable将大量数据导入Cassandra》中,讲解了如何使用Binary Memtable将大量数据导入Cassandra。这一周一直在看如果使用Binary Memtable的方式导入大量的数据。今天看下来,我还是觉得在目前这个版本不适合使用这种方式去导入数据。原因如下:在0.6+的版本中,Cassandra集群中取消了UDP通信,完全采用TCP监听固定... 阅读全文

posted @ 2010-05-21 18:56 逖靖寒 阅读(1967) 评论(0) 推荐(3) 编辑

2010年5月17日 #

使用Binary Memtable将大量数据导入Cassandra

摘要: 在这篇《谈谈Cassandra的客户端》文章中,我们谈到了如何使用Thrift API以及更加高级的封装(Hector)如果将数据导入到到Cassandra中,但是在导入大量数据的时候这会遇到很多的问题,比如插入失败,超时等等问题。为了解决这个问题,我们可以尝试使用Binary Memtable。在Cassandra的wiki上,对Binary Memtable的描述如下:Binary Memta... 阅读全文

posted @ 2010-05-17 20:48 逖靖寒 阅读(3508) 评论(6) 推荐(4) 编辑

2010年4月28日 #

MapReduce的优点

摘要: MapReduce在处理数据方面的优点如下: 第一, 这个模型非常方便使用,即使是对于完全没有分布式程序的程序员也是如此。它隐藏了并行计算的细节,错误容灾,本地优化以及负载均衡。MapReduce运行开发人员使用自己熟悉的语言进行开发,如Java,C#,Python,C++等等。 第二, 对于大型的计算需求使用MapReduce可以非常轻松的完成。 比如说, Google使用MapReduc... 阅读全文

posted @ 2010-04-28 15:56 逖靖寒 阅读(4623) 评论(0) 推荐(1) 编辑

2010年3月25日 #

如何安装和配置Cassandra

摘要: Cassandra属于最近比较流行的一款NoSQL数据库,http://nosql-database.org/中给NoSQL的定义如下:下一代的数据库产品应该具备这几点:非关系型的,分布式的,开源的,可以线性扩展的。这类数据库最初的目的在于提供现代网站可扩展的数据库解决方案。这个运动开始于2009年初,目前正在迅速的发展。这种类型的数据库具有:自由的schema,数据多处备份,简单的编程API,数... 阅读全文

posted @ 2010-03-25 17:27 逖靖寒 阅读(16545) 评论(11) 推荐(1) 编辑

2010年3月23日 #

谈谈Cassandra的客户端

摘要: 最近试用了一段时间Cassandra,将Oracle中的数据导入进来,遇到了问题然后解决问题,收获挺大。在这个过程中,除了设计一个合理的数据模型,再就是使用Cassandra API进行交互了。Cassandra在设计的时候,就是支持Thrift的,这意味着我们可以使用多种语言开发。对于Cassandra的开发本身而言,这是使用Thrift的好处:支持多语言。坏处也是显而易见的:Thrift AP... 阅读全文

posted @ 2010-03-23 17:43 逖靖寒 阅读(14938) 评论(2) 推荐(3) 编辑

2010年3月16日 #

基于Cassandra搭建简单Blog程序后台

摘要: 在上一篇博客《大话Cassandra数据模型》中,我们讲解了Cassandra的数据模型。在这篇博客中,我们将基于Cassandra搭建一个简单的Blog程序后台。需求Blog程序的需求如下:1 允许不同的用户写Blog。 2 Blog内容包括:标题,内容,ID,发布日期。 3 每一篇Blog可以打上任意多个Tag。 4 人们可以在Blog上留言,内容包括:留言内容,留言人的名字,留言时间。设计针... 阅读全文

posted @ 2010-03-16 23:20 逖靖寒 阅读(5611) 评论(21) 推荐(3) 编辑

2010年3月12日 #

大话Cassandra数据模型

摘要: Cassandra是一个开源的分布式数据库,结合了Dynamo的Key/Value与Bigtable的面向列的特点。Cassandra的特点如下:1.灵活的schema:不需要象数据库一样预先设计schema,增加或者删除字段非常方便(on the fly)。2.支持range查询:可以对Key进行范围查询。3.高可用,可扩展:单点故障不影响集群服务,可线性扩展。我们可以将Cassandra的数据... 阅读全文

posted @ 2010-03-12 11:09 逖靖寒 阅读(14606) 评论(5) 推荐(1) 编辑

2010年2月25日 #

使用Hive的web界面:HWI

摘要: HWI是Hive Web Interface的简称,是hive cli的一个web替换方案。关于如何搭建Hive平台,可以参考:搭建Hive平台但是目前这个功能做的比较简陋,这篇文章我们一起来看看如何使用hive-0.4.1中自带的hwi来进行操作。打开HWI假设hive部署在10.20.151.7机器上,conf/hive-default.xml文件都是默认值,那么我们直接在浏览器中输入:http://10.20.151.7:9999/hwi/ 就可以访问了。 访问schema信息(Browse Schema)我们在web界面点击Browsers Schema或者输入:http://10.2 阅读全文

posted @ 2010-02-25 15:03 逖靖寒 阅读(33548) 评论(1) 推荐(4) 编辑

2010年2月24日 #

搭建Hive平台

摘要: Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 本文讲解如何搭建一个Hive平台。假设我们有3台机器:hadoop1,hadoop2,hadoop3。并且都安装好了Hadoop-0.19.2(hive支持的Hadoop版本很多... 阅读全文

posted @ 2010-02-24 14:05 逖靖寒 阅读(13479) 评论(1) 推荐(2) 编辑

上一页 1 2 3 4 5 6 7 8 ··· 19 下一页