OpenNaive - 博客园

2013年9月10日

试用Sublime Text2

摘要：用久了Vim敲代码，难免有些审美疲劳，所以决定试用一下黄博推荐的Sublime Text2。ST2是一个共享软件，标价$59，不过作者很厚道地允许免费使用，只是很罕见地会出现需要购买的提示。ST2支持Windows、Linux、OS X多种平台。1. Vim模式ST2支持Vim模式，打开preferences->setting-User。输入{ "ignored_packages": []}保存文件后，就可以使用常用的Vim命令了。2. 包管理ST2提供了比较丰富的包，用于功能扩展，类似于Vim的插件。比Vim方便地是，ST2提供了一个包管理模块Package Con 阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(944) 评论(0) 推荐(0) 编辑

在SAE搭建wordpress

摘要： SAE更新以后似乎没有免费的wordpress4sae了，而且有诸多限制，所以我尝试手动将wordpress当做普通应用建在SAE上。可以自由安装模板、主题，可以导入日志数据。1.准备工作本地安装svn，下载wordpress的源码；在SAE上创建新应用，开发语言为php；初始化应用的代码库；初始化应用的mysql，并且创建一个新的storage domain，比如就叫wordpress。账号最好要通过实名认证，否则应用租金很贵，通过实名认证后，得到2000云豆，按每天5个计算，可用400天。2.上传代码首先从服务器上将初始化的代码checkout下来，仓库地址为https://svn.sin 阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(541) 评论(0) 推荐(0) 编辑

使用capping和assembly提高去重系统的读性能

摘要：原文：Improving Restore Speed for Backup Systems that Use Inline Chunk-Based Deduplication, FAST‘13。2013年的FAST会议开完了，HP实验室的研究员发表了一篇关于数据去重系统读性能的论文，与sparse index是同一作者。这篇文章主要有三个贡献，如下：提出衡量碎片程度和读性能的量化指标，mean containers read per MB and speed factor。Nam等人曾提出CFL来衡量碎片程度，但是CFL忽略了数据集内部引用情况。mean containers read MB的阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(554) 评论(0) 推荐(0) 编辑

去重系统的recipe压缩

摘要：原文：File Recipe Compression in Data Deduplication Systems, FAST’13.在去重系统中，需要为数据流保存一个指纹序列（recipe）用于重新构造数据流，一般来存储recipe并不是问题。但是当全备份很频繁，数据有效期很长，去重率又很高时，recipe在系统中的比重就上来。这篇文章就是解决这个问题。文章使用了四种压缩技术，零块压缩、分页索引页内压缩和两种统计方法。1.零块压缩这是魏建生博士提出的方法，数据流中通常存在一些全是0的块，存储这些块和它们的指纹都是一种浪费，因此可以为它们分配更短的编码。此方法的压缩率依赖于数据集的特性。2.分页阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(428) 评论(0) 推荐(0) 编辑

HYDRAstor：可扩展的二级存储

摘要：原文：HYDRAstor: a Scalable Secondary Storage.HYDRAstor（官网）是NEC推出的二级存储系统,先后有多篇关于HYDRAstor的论文发表在FAST（包括后来9livesdata发表的论文）。HYDRAstor是一个完整的存储解决方案,因此涉及的方面很多,包括文件系统、DHT、dedup、erasure code等。这类论文往往是多种技术的汇聚点，可以帮助扩展自己的领域。看这篇文章只能了解有这样的东西，太多技术细节没有说明。HYDRAstor的目标是商用产品，支持可扩展容量和性能，垃圾回收，负载均衡，高可靠性、可用性等特性。本文关注的是其后端（bac 阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(370) 评论(0) 推荐(0) 编辑

无窗生活

摘要：工欲善其事，必先利其器!要在Linux环境下工作，就得找到与windows环境同等分量的工具才行。先前已有一些统计，Linux下几个比较好用的软件。0.ubuntu[官网]我是ubuntu的忠实粉丝。ubuntu 12.04 64bit配上4GB内存跑起来非常流畅，unity桌面能充分利用笔记本不大的屏幕空间。自带的ibus感觉是Linux环境最好的中文输入法了。基本能胜任所有的工作，可能office方面的软件不如MS Office方便是一大短板吧。另外，机子休眠后，有时桌面会失去响应，这时我只能切换到tty1，kill掉Xorg进程，这会重启桌面。1.GoldenDict[官网]以前都是用s 阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(232) 评论(0) 推荐(0) 编辑

Linux文件系统的进化

摘要：原文：A study of Linux file system evolution, in FAST'13.这是会议的最佳论文，分析了8年时间内六个主流Linux文件系统（Ext3，Ext4，XFS， Btrfs， ReiserFS, JFS）的5079个补丁，详细解答了什么补丁最多，什么bug最多等问题。这里将几个有意思的结论列出来。1. 维护型补丁最多维护型补丁包括改善代码的可读性，简化代码结构等等，此类补丁占了60%之多，足见良好的可维护性对于一个复杂的开源项目是十分重要的。2. bug修复型补丁第二多，并且伴随着软件的整个生命周期有40%的补丁是bug修复型补丁。对于像Btrf 阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(410) 评论(0) 推荐(0) 编辑

Sparse Index实验

摘要： sparse index是一篇老论文，出现在FAST’09。当时，数据去重的主流研究方向是索引设计，一个好的索引必须有高吞吐率，低内存，高重删率等特点。我希望destor能支持所有的主流索引，因此近期实现了sparse index，并对索引模块的接口做了比较大的改动。sparse index首先使用传统的分块算法将数据流分块，为数据块计算哈希；根据哈希值选取segment边界（比如数据块的哈希取摸后等于某个预定义的值，就认为这个块是segment的边界，这里segment相当于超级块），到此数据流被分割为变长的segment；针对每个segment，为其抽样一定数量的hook（抽样的方法是：若阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(640) 评论(0) 推荐(0) 编辑

primary dedup能节约成本吗？

摘要： dedup已经被广泛应用于二级存储系统（备份、归档：高冗余、高吞吐率、延迟不敏感、写多读少）；但是主存储系统（低冗余、延迟敏感、读多）仍然很少采用dedup，虽然已有一些尝试（iDedup、ZFS、opendedup等）。我们从成本的角度来分析这个问题。dedup的目的是节约成本：节约的是磁盘的成本，当重删率（=原始数据大小/重删后的数据大小）达到10倍时，意味着原来需要10块磁盘的数据，现在只要1块磁盘了。另一方面，dedup会增加内存的成本，因为它需要额外维护一个称为指纹索引的内存数据结构（将索引放在磁盘会导致磁盘瓶颈问题）。因此，dedup最终能节约多少成本，等于节约的磁盘成本减去增加的阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(378) 评论(0) 推荐(0) 编辑

去重系统的垃圾回收

摘要：用户一般会为备份数据设置一个retention time，过时的数据应该被回收再利用。数据去重复杂化了垃圾回收，因为每个数据块都可能被多个备份所引用。如何进行引用管理仍是很有挑战的问题。最近的一些论文讨论了这些问题，包括ATC’11的best paper，FAST’13，我想简单总结下它们的思想。垃圾回收可以分为两阶段：第一阶段是标记可回收的数据块，称为标记阶段；第二阶段是回收数据块，称为回收阶段。回收阶段的设计与数据组织格式有关，比如大多数去重系统使用container组织数据，它们就需要一个合并稀疏容器的操作来回收空间。关于回收阶段的讨论目前还不多。现在的相关论文讨论的问题实际上都属于第一阅读全文

posted @ 2013-09-10 16:23 OpenNaive 阅读(548) 评论(0) 推荐(0) 编辑