逖靖寒 - 博客园

反转Cassandra索引

摘要：问题通过前面的文章：《谈谈Cassandra的客户端》和《大话Cassandra数据模型》我们已经了解了Cassandra的数据模型和编程接口的情况。假如我们在实际的应用中我们的数据是这样保存的：每一个key对应了一些列的Column：port，Version，Service，Status等等。通过某一个key，我们能够找到和这个key相关的所有Column的值。假设我们要找到Column的na... 阅读全文

posted @ 2010-05-26 08:29 逖靖寒阅读(3362) 评论(3) 推荐(4)

为什么在Cassandra版本0.6.1中不适合使用Binary Memtable的方式导入大量的数据。

摘要：在上一篇文章《使用Binary Memtable将大量数据导入Cassandra》中，讲解了如何使用Binary Memtable将大量数据导入Cassandra。这一周一直在看如果使用Binary Memtable的方式导入大量的数据。今天看下来，我还是觉得在目前这个版本不适合使用这种方式去导入数据。原因如下：在0.6+的版本中，Cassandra集群中取消了UDP通信，完全采用TCP监听固定... 阅读全文

posted @ 2010-05-21 18:56 逖靖寒阅读(1978) 评论(0) 推荐(3)

使用Binary Memtable将大量数据导入Cassandra

摘要：在这篇《谈谈Cassandra的客户端》文章中，我们谈到了如何使用Thrift API以及更加高级的封装（Hector）如果将数据导入到到Cassandra中，但是在导入大量数据的时候这会遇到很多的问题，比如插入失败，超时等等问题。为了解决这个问题，我们可以尝试使用Binary Memtable。在Cassandra的wiki上，对Binary Memtable的描述如下：Binary Memta... 阅读全文

posted @ 2010-05-17 20:48 逖靖寒阅读(3542) 评论(6) 推荐(4)

MapReduce的优点

摘要： MapReduce在处理数据方面的优点如下：第一, 这个模型非常方便使用，即使是对于完全没有分布式程序的程序员也是如此。它隐藏了并行计算的细节，错误容灾，本地优化以及负载均衡。MapReduce运行开发人员使用自己熟悉的语言进行开发，如Java，C#，Python，C++等等。第二, 对于大型的计算需求使用MapReduce可以非常轻松的完成。比如说, Google使用MapReduc... 阅读全文

posted @ 2010-04-28 15:56 逖靖寒阅读(4647) 评论(0) 推荐(1)

如何安装和配置Cassandra

摘要： Cassandra属于最近比较流行的一款NoSQL数据库，http://nosql-database.org/中给NoSQL的定义如下：下一代的数据库产品应该具备这几点：非关系型的，分布式的，开源的，可以线性扩展的。这类数据库最初的目的在于提供现代网站可扩展的数据库解决方案。这个运动开始于2009年初，目前正在迅速的发展。这种类型的数据库具有：自由的schema，数据多处备份，简单的编程API，数... 阅读全文

posted @ 2010-03-25 17:27 逖靖寒阅读(16611) 评论(11) 推荐(1)

谈谈Cassandra的客户端

摘要：最近试用了一段时间Cassandra，将Oracle中的数据导入进来，遇到了问题然后解决问题，收获挺大。在这个过程中，除了设计一个合理的数据模型，再就是使用Cassandra API进行交互了。Cassandra在设计的时候，就是支持Thrift的，这意味着我们可以使用多种语言开发。对于Cassandra的开发本身而言，这是使用Thrift的好处：支持多语言。坏处也是显而易见的：Thrift AP... 阅读全文

posted @ 2010-03-23 17:43 逖靖寒阅读(15035) 评论(2) 推荐(3)

基于Cassandra搭建简单Blog程序后台

摘要：在上一篇博客《大话Cassandra数据模型》中，我们讲解了Cassandra的数据模型。在这篇博客中，我们将基于Cassandra搭建一个简单的Blog程序后台。需求Blog程序的需求如下：1 允许不同的用户写Blog。 2 Blog内容包括：标题，内容，ID，发布日期。 3 每一篇Blog可以打上任意多个Tag。 4 人们可以在Blog上留言，内容包括：留言内容，留言人的名字，留言时间。设计针... 阅读全文

posted @ 2010-03-16 23:20 逖靖寒阅读(5627) 评论(21) 推荐(3)

大话Cassandra数据模型

摘要： Cassandra是一个开源的分布式数据库，结合了Dynamo的Key/Value与Bigtable的面向列的特点。Cassandra的特点如下：1.灵活的schema：不需要象数据库一样预先设计schema，增加或者删除字段非常方便（on the fly）。2.支持range查询：可以对Key进行范围查询。3.高可用，可扩展：单点故障不影响集群服务，可线性扩展。我们可以将Cassandra的数据... 阅读全文

posted @ 2010-03-12 11:09 逖靖寒阅读(14654) 评论(5) 推荐(1)

使用Hive的web界面：HWI

摘要： HWI是Hive Web Interface的简称，是hive cli的一个web替换方案。关于如何搭建Hive平台，可以参考：搭建Hive平台但是目前这个功能做的比较简陋，这篇文章我们一起来看看如何使用hive-0.4.1中自带的hwi来进行操作。打开HWI假设hive部署在10.20.151.7机器上，conf/hive-default.xml文件都是默认值，那么我们直接在浏览器中输入：http://10.20.151.7:9999/hwi/ 就可以访问了。访问schema信息（Browse Schema）我们在web界面点击Browsers Schema或者输入：http://10.2 阅读全文

posted @ 2010-02-25 15:03 逖靖寒阅读(33841) 评论(1) 推荐(4)

搭建Hive平台

摘要： Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。本文讲解如何搭建一个Hive平台。假设我们有3台机器：hadoop1,hadoop2,hadoop3。并且都安装好了Hadoop-0.19.2（hive支持的Hadoop版本很多... 阅读全文

posted @ 2010-02-24 14:05 逖靖寒阅读(13520) 评论(1) 推荐(2)

逖靖寒的世界

导航

公告