OpenNaive - 博客园

2013年9月10日

CFL选择去重的实验

摘要：最近实现了Assuring Demanded Read Performance of Data Deduplication Storage with Backup Datasets一文中提出的算法，并用两个数据集分别进行了实验。参数分别设为cfl_require=0.6，container_usage_threshold=0.7，同时装备大小为100个container的LRU缓存。1.linux源码集数据集包括105个连续的linux内核版本，总数据量为40.6GB。95%为重复数据，经过选择去重后，去重率下降到78%。使用cfl选择去重算法后，恢复性能如图所示。最初的几个作业能达到100M 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(314) 评论(0) 推荐(0) 编辑

Dremel: 交互式分析Web数据

摘要： Dremel是一个可扩展的、交互式即时查询系统，用于分析只读的嵌套数据。Dremel可以对集群上的超大数据集进行交互式分析。Pig、Hive利用MapReduce执行查询，需要在多个MR作业间传递数据，相比之下，Dremel是就地执行查询的（MapReduce的瓶颈很有可能就是在Map和Reduce之间传递数据）。Dremel并不是用来取代MapReduce的，它可以和MapReduce互相补充，比如用于分析MapReduce的输出。实现Dremel有2个问题：首先是通用的存储层，比如GFS，一个高性能的存储层对于就地查询是非常关键的；其次是存储格式，按列存储对于扁平的关系数据非常合适，运用到阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(527) 评论(0) 推荐(0) 编辑

近似最优缓存替换算法

摘要：缓存替换算法有很多种，FIFO是最简单的，LRU是最常用的，最优缓存替换算法则是命中率最佳的。因为我们无法预知数据的未来访问模式，通常最优替换算法是无法实现的。然而数据恢复则是例外：在备份的过程中，我们已经知道数据恢复的顺序。既然如此，何不通过最优缓存替换算法进一步改善命中率。数据去重原型系统destor里面已经实现了LRU缓存，并且工作得还不错，尽管如此，我仍然想看看最优替换算法能获得怎样的效果。1.种子文件备份的过程中，我记录下container的访问顺序，称之为种子文件，每个种子代表访问一个container。种子文件会作为最优替换算法的输入。2.滑动窗口如果我们一次性读取整个种子文件，阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(1304) 评论(0) 推荐(0) 编辑

磁盘有时也不可靠

摘要：实验服务器的磁盘是最近买的，当卖家问我要普通的还是高级的，我选择了普通，现在追悔莫及。今天的分析更加详细。首先发现每次实验，出错的文件都不一样，所以应该不是临界条件的问题。下表总结了出错的位置，原始数据是数据的正确格式，第一次备份和第二次备份分别代表两次连续备份，我恢复出两次备份的数据与原始数据进行比较，发现错误都是某个字符发生了变化：文件名原始数据第一次备份第二次备份linux-2.6.34.1.tar;;?linux-2.6.34.5.taraaelinux-2.6.35.1.tar(space)(space)$linux-2.6.35.2.taruuwlinux-2.6.35.3.ta 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(217) 评论(0) 推荐(0) 编辑

内容感知FTL

摘要：原文：Feng Chen et al. CAFTL: A Content-Aware Flash Translation Layer Enhancing the Lifespan of Flash Memory based Solid State DrivesSSD的寿命与三个参数有关：1.写负载；2.过量供应的容量；3.垃圾回收和损毁均衡的效率。写负载通常被认为是不可控的，而过量供应不可能无限制，所以大部分研究集中在垃圾回收和损毁均衡。CAFTL关注的是第一点。图1和图2验证了重复数据的存在。图1中，15块磁盘的重复度为7.9~85.9%，其中第7块磁盘（NTFS）大部分重复数据是零块，如果阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(762) 评论(0) 推荐(0) 编辑

SSD的特点

摘要： SSD属于半导体器件，目前主流SSD都采用NAND flash芯片。与磁盘相比，主要有以下优势：更高的随机访问性能，无寻道时间；低能耗；对温度和震动具有更强的适应性。SSD最大的问题是寿命和可靠性，擦除一定次数后SSD会损毁。此外：随着位密度上升，flash芯片的可靠性和寿命下降，这是容量和可靠性的矛盾；RAID不太适合SSD，因为SSD RAID中相关设备故障的概率很高；关于SSD可靠性的研究很多，毁誉参半，SSD的可靠性仍待证明。可靠性是部署SSD到商业系统的障碍。flash芯片还具有三个关键的技术限制：不能就地覆盖，写一个page之前必须擦除整个block；不能随机写，一个block内的阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(546) 评论(0) 推荐(0) 编辑

apache配置虚拟主机

摘要：买了一个域名，但是只有一个小组的公用ip，这个ip已经被用于小组的网站。如果我简单将域名映射到这个ip，那么访问的将是小组的网站，要访问自己的博客，需使用域名/目录这种url，很不方便。针对一个ip对应不同域名的问题，可以通过配置apache虚拟主机解决。apache的主要配置文件是/etc/apache2/httpd.conf、/etc/apache2/sites-available/default等，default文件是一个虚拟主机的例子，这次不需要修改这些文件。创建一个文件new_site，输入内容：VirtualHost *:80ServerName www.fumin.meDocum 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(169) 评论(0) 推荐(0) 编辑

模拟iDedup算法

摘要：在destor原型之上实现了类iDedup算法（介绍），其核心思想是只有当重复数据块在物理上连续才去重，可以通过一个threshold来设置序列的最小长度。因为底层存储并不是块设备，而是DDFS的container存储，不能判断数据块的DBN是否连续，所以我改为判断数据块所属container是否相邻。修改后的算法和iDedup算法的另一大区别是没有重复树，重复树用于记录存储系统中重复的数据块，在多个匹配中寻找最长的一个。考虑到备份系统的负载特点，我觉得这种需求是非常少见的，所以只查找最新备份的序列。修改后算法的流程图如下：算法的分支有些多，先画流程图再写代码可以少调很多bug。这幅图有一个小阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(359) 评论(0) 推荐(0) 编辑

伯克利的云计算报告（下）

摘要： 7.云计算的10大障碍云计算被公众接受有三大技术障碍；被接受后，云计算的增长又面临五大技术障碍；最后两个障碍是政策和商业障碍。云计算提供商在长期探索过程中会逐渐克服这些障碍。7.1服务的可用性用户最大的担心是云计算是否有足够的可用性，2008年Amazon EC2、GAE和Gmail都出现过服务中断的事故，持续数小时。只使用一家公司的云计算服务，会遇到单点故障的问题。即使这家公司非常大，有多个不同地理位置的数据中心，它们使用的仍然是同一套软件设施，甚至这家公司倒闭了怎么办。一些大企业会因为担忧这个问题而不愿意使用云计算。对于这个问题，唯一可行的解决办法是使用多家云计算提供商。另一个可用性问题是阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(233) 评论(0) 推荐(0) 编辑

伯克利的云计算报告（中）

摘要： 4.云计算的机遇建造和运维超大规模的商用数据中心是云计算最关键的助推器，同时新技术趋势和新商业模型也起到了很重要的作用。云计算一旦“起飞”，一些过去看来不现实的新应用和使用模型找到了出路。新技术和新的商业模式推动了云计算的发展。伴随Web2.0出现的，是从“high-touch, high-margin, high-commitment”的提供服务到“low-touch, low-margin, low-commitment”的自助服务的转变。比如，在Web1.0时代，接受陌生人的信用卡支付需要一份合约。这种合约适合大型商业关系，不适合个人用户和小型商业活动。PayPal出现后，任何个人接受信阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(363) 评论(0) 推荐(0) 编辑