上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 32 下一页
摘要: http://blog.donews.com/lemur/archive/2005/12/17/660973.aspx 阅读全文
posted @ 2012-10-31 22:47 vivianC 阅读(117) 评论(0) 推荐(0) 编辑
摘要: http://www.csdn.net/article/2010-11-29/282725摘要:一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的 阅读全文
posted @ 2012-10-31 22:38 vivianC 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 作者:Chuanhui|可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明本文链接地址:http://www.nosqlnotes.net/archives/119分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS (Tencent FS,为了便于区别,后续称为QFS),以及Facebook Haystack。其中,TFS,QFS以及Haystack需要解决的问题以及架构都很类似,这三个文件系统称为Blob FS (Blob File System)。本文从分布式架构的角度对三种典型的文件系统进行对比。我们先看GFS和HDFS。HDF 阅读全文
posted @ 2012-10-31 22:33 vivianC 阅读(273) 评论(0) 推荐(0) 编辑
摘要: Avinash Lakshman , Facebook Prashant Malik,Facebook张鹏@Sina RDC 译摘要 ABSTRACTCassandra 是一个分布式的存储引擎,用来管理分布在大量普通商用级别服务器上面的海量的结构化数据,可以提供高可用性,不存在单点故障。Cassandra设计目标,是运行在千台规模的服务器节点上面,节点可以跨越IDC.在这个规模上,大小组件都会频繁的发生故障。当故障发生时,Cassandra通过对持久层状态的有效管理,来达成整个系统的可靠性和扩展性。在很多场合,Cassandra作为一个数据库来使用,因此他借鉴了很多数据库的设计和实现策略,但是 阅读全文
posted @ 2012-10-31 22:18 vivianC 阅读(721) 评论(0) 推荐(0) 编辑
摘要: http://www.open-abc.com/nosql-214.html尽管 SQL 数据库一直是我们IT行业中最有用的工具,然而,它们这样在行业中超过15年以上的“转正”终于就要寿终正寝了。现在,虽然关系型数据库仍然无所不在,但它越来越不能满足我们的需要了。NoSQL成为了业界的新宠。但是,各种 “NoSQL” 数据库之间的差异比当年众多关系型数据库之间的差异要大许多。这就加大了人们在建设自己的应用是选择合适的数据库的难度。在这篇汇总的PK中,我们对 Cassandra, Mongodb, CouchDB, Redis, Riak 和 HBase 进行了比较,以供参考:CouchDB* 阅读全文
posted @ 2012-10-31 20:59 vivianC 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 中文版http://www.html5rocks.com/zh/tutorials/internals/howbrowserswork/英文版http://taligarsiel.com/Projects/howbrowserswork1.htm 阅读全文
posted @ 2012-10-31 12:58 vivianC 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 转自http://www.cnblogs.com/hustcat/archive/2009/10/28/1591648.html写在前面:索引对查询的速度有着至关重要的影响,理解索引也是进行数据库性能调优的起点。考虑如下情况,假设数据库中一个表有10^6条记录,DBMS的页面大小为4K,并存储100条记录。如果没有索引,查询将对整个表进行扫描,最坏的情况下,如果所有数据页都不在内存,需要读取10^4个页面,如果这10^4个页面在磁盘上随机分布,需要进行10^4次I/O,假设磁盘每次I/O时间为10ms(忽略数据传输时间),则总共需要100s(但实际上要好很多很多)。如果对之建立B-Tree索引 阅读全文
posted @ 2012-10-31 12:49 vivianC 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 转 http://www.codinglabs.org/html/theory-of-mysql-index.html摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MySQL时主要打交道的索引,至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分。第一部分主要从数据结构及算法理论层面讨论MySQL数据库索引的数理基础。第二部分结合MySQL数 阅读全文
posted @ 2012-10-31 12:44 vivianC 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 转自 http://www.phpben.com/?post=74摘要:第一部分:基础知识第二部分:MYISAM和INNODB索引结构1、简单介绍B-tree B+ tree树2、MyisAM索引结构3、Annode索引结构4、MyisAM索引与InnoDB索引相比较第三部分:MYSQL优化1、表数据类型选择2、sql语句优化(1)最左前缀原则(1.1)能正确的利用索引(1.2)不能正确的利用索引(1.3)如果一个查询where子句中确实不需要password列,那就用“补洞”。(1.4)like(2)Order by优化(2.1)filesort优化算法.(2.2)单独order by用不了 阅读全文
posted @ 2012-10-31 12:30 vivianC 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。1、分类分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。2、回归分析回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将 阅读全文
posted @ 2012-10-31 09:12 vivianC 阅读(268) 评论(0) 推荐(0) 编辑
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 32 下一页