摘要:USENIX年度会议(USENIX Annual Technical Conference)是计算机体系结构的顶级会议之一,每年举办一次。2011年ATC会议的最佳论文奖被来自赛门铁克的一篇论文摘得:Building a High-performance Deduplication System。最近几年关于重复数据删除的研究达到了高潮,2011年FAST的最佳论文是一篇来自微软的关于重复数据删除的论文。1 引子评价一个重复数据删除系统,有三个标准:重删率,可扩展性和吞吐率。重删率说明了这个系统能挖掘出多少重复的数据,这是重删系统的主要目标,没有重删率,重删系统就没有意义;可扩展性指的是重删系
阅读全文
摘要:有台服务器的分区不太合理,今天重新给分了一下,顺便整理一下资料。1 概念通常新买回来的电脑,都习惯先对磁盘进行分区。磁盘分区就是将一块物理磁盘分为好几个逻辑存储单元,这几个单元之间互相独立,从外部看就好像有多块物理磁盘。分区编辑软件(比如fdisk)可以对磁盘执行创建、删除分区等操作。每个分区都可以有自己的文件系统。对磁盘进行分区有很多的好处。保护和孤立数据,一个分区损坏了并不会影响其它分区,因此也可以很容易重装一个已损坏的文件系统而不影响其它文件系统;可以将不同类型的数据放在不同的分区中,方便备份和管理,比如将重要的资料都放在一个分区,每次只需要备份这个分区的文件系统;分区还有一个有趣的用法
阅读全文
摘要:这本书买了一年了,最近终于比较完整的读了一遍,感觉收获不少,应该写一篇读后感吧。首先这本书是讲存储的,市面上关于存储的书少之又少,好书就更是稀缺资源,这本书可以说一定程度上弥补了资料的缺失。书里几乎涉及到了存储的方方面面,涵盖了磁盘、RAID、FC、SAN、NAS、备份等各个方向。这本书里不仅对各个技术的概念、原理进行了讲解,还包括了一些产品的实践,就称它为理论联系实际吧。入学的时候,自己是完全的存储门外汉,对于FC、SAN这些东西是云里雾里,因此看这本书的时候抱着“关注概念、思想,忽略产品、细节”的心态,纯粹是为了扩展知识面。看完这本书后,如果能对各个存储技术都说上一两句,就算是成功了。总之
阅读全文
摘要:1 算法简介在数据挖掘领域,Apriori算法是挖掘关联规则的经典算法。Apriori算法采用的是自底向上的方法,从1-频繁集开始,逐步找出高阶频繁集。它的基本流程是:第一次扫描交易数据库D时,产生1-频繁集。在此基础上经过连接、修剪产生2-频繁集。以此类推,直到无法产生更高阶的频繁集为止。在第k次循环中,也就是产生k-频繁集的时候,首先产生k-候选集,k-候选集中每一个项集都是对两个只有一个项不同的属于k-1频繁集的项集连接产生的,k-候选集经过筛选后产生k-频繁集。2 理论基础首先来看一个频繁集的性质。定理:如果项目集X是频繁集,那么它的非空子集都是频繁集。根据定理,已知一个k-频繁集的项
阅读全文
摘要:本文主要来自《数据仓库和数据挖掘》一书,这本书讲的和维基百科里的非常相似,怀疑是从某本外文书籍里翻译过来的。关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系。这里有一则沃尔玛超市的趣闻。沃尔玛曾今对数据仓库中一年多的原始交易数据进行了详细的分析,发现与尿布一起被购买最多的商品竟然是啤酒。借助数据仓库和关联规则,发现了这个隐藏在背后的事实:美国的妇女经常会嘱咐丈夫下班后为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。根据这个发现,沃尔玛调整了
阅读全文
摘要:从图书馆借的《Linux文件系统》,作者是Moshe Bar,他还写了另一本书叫《Linux internals》,应该说还是挺牛的。但是翻看了几页后,终于忍不住给还了回去,因为翻译太烂了,而且有些古老。首先说说翻译,除了有些不流畅外,最让人不能忍受的是通篇充斥了缓冲区、缓冲区缓存、缓存这样的模糊不清的翻译,不了解的人很难区分这些词语的意思。抱怨一下,国内有很多翻译过来的经典书籍(谁让经典书都是老外写的呢),翻译实在不敢恭维呀!其次是这本书有点老了,以2.4内核为基础,讲解当时流行的几种文件系统,包括ext2。2.4内核和现在的内核相比还是有很大差距的,拿head_buffer结构体为例。书上
阅读全文