OpenNaive - 博客园

2013年9月10日

CAFTL和CA-SSD的比较

摘要： FAST'11同时收录了这两篇几乎相同主题的文章，分别用CAFTL（Feng Chen等）和CA-SSD（A. Gupta等）表示,下表比较了它们的主要特点。CAFTLCA-SSD工作位置FTLFTL去重单元pagepage映射表二级映射表，元数据区反向映射映射表LPT和逆向映射表iLPT指纹索引基于热度的LRULRU哈希计算取样法、预哈希专用硬件逻辑垃圾回收二级映射表记录引用次数iLPT记录逻辑地址集合它们都是在FTL集成数据去重，不需要修改上层应用；因为缺少上层文件系统语义信息，并且SSD的读写单元是page，所以很自然使用page作为去重单元；指纹的计算是性能瓶颈，因此二者都提倡阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(2723) 评论(0) 推荐(0) 编辑

原型，磁盘还是内存

摘要：这几天一直在找bug。我的测试数据集是116个linux源码的打包文件（未压缩），116个文件差不多50GB的数据。原型系统是完美重删，应该可以发现所有的重复数据。但是我连续备份两次数据集（分别称为job1和job2），发现总会漏掉很小一部分（50GB的数据量，漏掉若干KB，大概就是几个数据块）的重复数据。到底是哪里出现了问题？在检查了几遍原型的逻辑后，没有发现错误，对几个小数据集的测试也显示完全正确（重删率和恢复出的数据都是对的）；将哈希表和SHA1全部改用成熟的Gnome Library和openssl后，问题依旧；重复试验，出问题的文件会变化，说明和数据集本身无关。于是开始使用md5su 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(188) 评论(0) 推荐(0) 编辑

利用value locality优化SSD

摘要：原文：A. Gupta et al. Leveraging Value Locality in Optimizing NAND-Flash based SSDs.这篇文章和DFTL是同一作者。时间局部性。当前访问了某个数据（某个逻辑地址），那么不久的将来很可能还会访问这个数据；空间局部性。当前访问了某个数据（某个逻辑地址），那么不久的将来与其逻辑地址相邻的数据很可能会被访问。利用时间局部性和空间局部性可以减少SSD的负载，但是仍有另一种局部性可以挖掘，即value locality。value locality的意思就是某个数据（数据的内容，不仅仅是逻辑地址）被访问地更频繁。value loc 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(1047) 评论(0) 推荐(0) 编辑

Linux优质软件

摘要：工欲善其事，必先利其器!要在Linux环境下工作，就得找到与windows环境同等分量的工具才行。先前已有一些统计，Linux下几个比较好用的软件。0.ubuntu[官网]我是ubuntu的忠实粉丝。ubuntu 12.04 64bit配上4GB内存跑起来非常流畅，unity桌面能充分利用笔记本不大的屏幕空间。自带的ibus感觉是Linux环境最好的中文输入法了。基本能胜任所有的工作，可能office方面的软件不如MS Office方便是一大短板吧。另外，机子休眠后，有时桌面会失去响应，这时我只能切换到tty1，kill掉Xorg进程，这会重启桌面。1.GoldenDict[官网]以前都是用s 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(340) 评论(0) 推荐(0) 编辑

安装Gnome Library

摘要： GLib（Gnome Library）是linux下最常用的c库，是gnome和gtk的基础。它提供了很多常用的数据结构，比如哈希表。linuxfromscratch上面有源码下载链接。官网上有各种数据结构的详细文档。基本的安装步骤是：./configure make make install配置的时候可能会遇到依赖包找不到的问题，比如：Working zlib library and headers not found解决办法： apt-get install zlib1g-dev接着又遇到了：checking for LIBFFI... noconfigure: error: Packag 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(592) 评论(0) 推荐(0) 编辑

openssl命令行入门

摘要： openssl是一个开源的加密工具箱，实现了SSL和TLS协议，并提供了通用的加密库。除了将libssl.so链接到自己的程序使用，还可以通过命令行使用openssl的所有功能。1.入门openssl提供了一个命令行工具，可以使用命令行直接使用openssl，比如计算某个文件的MD5、SHA-1等摘要。openssl sha1 /home/fumin/textopenssl md5 /home/fumin/text此外openssl还提供了SHA224、SHA256、SHA512等强度更高的摘要。此类命令被称为消息摘要命令（message digest command）。很奇怪的是，opens 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(2387) 评论(0) 推荐(0) 编辑

SSD去重：建模和量化分析

摘要：原文：J. Kim. Deduplication in SSDs: Model and Quantitative Analysis.数据去重技术可以有效减少写负载，节约存储空间，进而减少垃圾回收的次数，增加垃圾回收和损耗均衡算法的效率，对SSD的寿命有很好的改进。这篇来自MSST’2012的文章站在了CAFTL和CA-SSD的肩膀上，进一步探讨了数据去重对SSD性能的影响，也就是探讨数据去重是否可以改进SSD的写延迟。数据去重为SSD带来了很多的好处，但是存在两大挑战：1.数据去重的开销问题，通常SSD的资源有限，只有ARM7或ARM9等低端CPU和少量内存，这和备份归档环境有很大不同；2.S 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(1385) 评论(0) 推荐(0) 编辑

减少在线去重造成的数据碎片

摘要：原文：Reducing Impact of Data Fragmentation Caused by In-line Deduplication。这篇文章发表在SYSTOR’12上，主题也是数据去重的碎片问题。不知道是我的英文问题，还是他写作问题，论文读起来很不顺畅。文章发现了一个重要的矛盾：用户喜欢恢复最近的版本，但是最近的版本碎片最严重，恢复最慢。因此使用重写+垃圾回收的方式解决这个问题。事实上这个矛盾也是我所做工作的出发点，重复了啊，伤不起！1.CBR算法文章的idea并不复杂，但是作者绕来绕去，弄出一大堆名词，搞得很难看懂。文章没有考虑惯用的container存储，而是假设直接按块存储阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(326) 评论(0) 推荐(0) 编辑

使用GNU Autotools制作Makefile

摘要：最近用了一些开源软件，它们都有统一的安装方法，非常方便：./configuremakemake install于是我也鸟枪换炮，给自己的源码用上了automake和autoconf。下面这张流程图显示了制作Makefile的全过程：1.autoconfautoconf工具的作用是检查工程依赖的库文件和头文件，同时也是automake的基础。首先用autoscan工具扫描源码，它会产生一个configure.scan模板，在此基础上我们进行修改得到configure.ca（推荐）或者configure.in（图中是这个），这个文件是configure的关键，里面记录了工程依赖的头文件和库文件。下阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(464) 评论(0) 推荐(0) 编辑

数据中心的数据去重

摘要：原文：A Study on Data Deduplication in HPC Storage Systems.这是今年Super Computing上的文章，目的不是提出一种在数据中心去重的解决方案，而是分析数据中心的数据集，去指导未来的设计。作者似乎很喜欢写这类分析数据集文章，他在SYSTOR’09比较过备份环境下各级去重的效果。他开源了fs-c，这两篇文章的分析工具。这篇文章可以和微软、EMC的2篇文章进行比较，都是对数据集进行研究，但环境不一样，特点也不一样。文章的数据规模很大，达到1212TB，迄今为止最大的数据集，作者拿到了多个欧/美数据中心的数据。1.发现关于文件大小、文件后缀的阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(633) 评论(0) 推荐(0) 编辑