2013年9月10日

Dremel: 交互式分析Web数据

摘要: Dremel是一个可扩展的、交互式即时查询系统,用于分析只读的嵌套数据。Dremel可以对集群上的超大数据集进行交互式分析。Pig、Hive利用MapReduce执行查询,需要在多个MR作业间传递数据,相比之下,Dremel是就地执行查询的(MapReduce的瓶颈很有可能就是在Map和Reduce之间传递数据)。Dremel并不是用来取代MapReduce的,它可以和MapReduce互相补充,比如用于分析MapReduce的输出。实现Dremel有2个问题:首先是通用的存储层,比如GFS,一个高性能的存储层对于就地查询是非常关键的;其次是存储格式,按列存储对于扁平的关系数据非常合适,运用到 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(607) 评论(0) 推荐(0)

Linux优质软件

摘要: 工欲善其事,必先利其器!要在Linux环境下工作,就得找到与windows环境同等分量的工具才行。先前已有一些统计,Linux下几个比较好用的软件。0.ubuntu[官网]我是ubuntu的忠实粉丝。ubuntu 12.04 64bit配上4GB内存跑起来非常流畅,unity桌面能充分利用笔记本不大的屏幕空间。自带的ibus感觉是Linux环境最好的中文输入法了。基本能胜任所有的工作,可能office方面的软件不如MS Office方便是一大短板吧。另外,机子休眠后,有时桌面会失去响应,这时我只能切换到tty1,kill掉Xorg进程,这会重启桌面。1.GoldenDict[官网]以前都是用s 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(354) 评论(0) 推荐(0)

安装Gnome Library

摘要: GLib(Gnome Library)是linux下最常用的c库,是gnome和gtk的基础。它提供了很多常用的数据结构,比如哈希表。linuxfromscratch上面有源码下载链接。官网上有各种数据结构的详细文档。基本的安装步骤是:./configure make make install配置的时候可能会遇到依赖包找不到的问题,比如:Working zlib library and headers not found解决办法: apt-get install zlib1g-dev接着又遇到了:checking for LIBFFI... noconfigure: error: Packag 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(630) 评论(0) 推荐(0)

openssl命令行入门

摘要: openssl是一个开源的加密工具箱,实现了SSL和TLS协议,并提供了通用的加密库。除了将libssl.so链接到自己的程序使用,还可以通过命令行使用openssl的所有功能。1.入门openssl提供了一个命令行工具,可以使用命令行直接使用openssl,比如计算某个文件的MD5、SHA-1等摘要。openssl sha1 /home/fumin/textopenssl md5 /home/fumin/text此外openssl还提供了SHA224、SHA256、SHA512等强度更高的摘要。此类命令被称为消息摘要命令(message digest command)。很奇怪的是,opens 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(2505) 评论(0) 推荐(0)

SSD去重:建模和量化分析

摘要: 原文:J. Kim. Deduplication in SSDs: Model and Quantitative Analysis.数据去重技术可以有效减少写负载,节约存储空间,进而减少垃圾回收的次数,增加垃圾回收和损耗均衡算法的效率,对SSD的寿命有很好的改进。这篇来自MSST’2012的文章站在了CAFTL和CA-SSD的肩膀上,进一步探讨了数据去重对SSD性能的影响,也就是探讨数据去重是否可以改进SSD的写延迟。数据去重为SSD带来了很多的好处,但是存在两大挑战:1.数据去重的开销问题,通常SSD的资源有限,只有ARM7或ARM9等低端CPU和少量内存,这和备份归档环境有很大不同;2.S 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(1489) 评论(0) 推荐(0)

CAFTL和CA-SSD的比较

摘要: FAST'11同时收录了这两篇几乎相同主题的文章,分别用CAFTL(Feng Chen等)和CA-SSD(A. Gupta等)表示,下表比较了它们的主要特点。CAFTLCA-SSD工作位置FTLFTL去重单元pagepage映射表二级映射表,元数据区反向映射映射表LPT和逆向映射表iLPT指纹索引基于热度的LRULRU哈希计算取样法、预哈希专用硬件逻辑垃圾回收二级映射表记录引用次数iLPT记录逻辑地址集合它们都是在FTL集成数据去重,不需要修改上层应用;因为缺少上层文件系统语义信息,并且SSD的读写单元是page,所以很自然使用page作为去重单元;指纹的计算是性能瓶颈,因此二者都提倡 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(2816) 评论(0) 推荐(0)

利用value locality优化SSD

摘要: 原文:A. Gupta et al. Leveraging Value Locality in Optimizing NAND-Flash based SSDs.这篇文章和DFTL是同一作者。时间局部性。当前访问了某个数据(某个逻辑地址),那么不久的将来很可能还会访问这个数据;空间局部性。当前访问了某个数据(某个逻辑地址),那么不久的将来与其逻辑地址相邻的数据很可能会被访问。利用时间局部性和空间局部性可以减少SSD的负载,但是仍有另一种局部性可以挖掘,即value locality。value locality的意思就是某个数据(数据的内容,不仅仅是逻辑地址)被访问地更频繁。value loc 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(1130) 评论(0) 推荐(0)

内容感知FTL

摘要: 原文:Feng Chen et al. CAFTL: A Content-Aware Flash Translation Layer Enhancing the Lifespan of Flash Memory based Solid State DrivesSSD的寿命与三个参数有关:1.写负载;2.过量供应的容量;3.垃圾回收和损毁均衡的效率。写负载通常被认为是不可控的,而过量供应不可能无限制,所以大部分研究集中在垃圾回收和损毁均衡。CAFTL关注的是第一点。图1和图2验证了重复数据的存在。图1中,15块磁盘的重复度为7.9~85.9%,其中第7块磁盘(NTFS)大部分重复数据是零块,如果 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(888) 评论(0) 推荐(0)

原型,磁盘还是内存

摘要: 这几天一直在找bug。我的测试数据集是116个linux源码的打包文件(未压缩),116个文件差不多50GB的数据。原型系统是完美重删,应该可以发现所有的重复数据。但是我连续备份两次数据集(分别称为job1和job2),发现总会漏掉很小一部分(50GB的数据量,漏掉若干KB,大概就是几个数据块)的重复数据。到底是哪里出现了问题?在检查了几遍原型的逻辑后,没有发现错误,对几个小数据集的测试也显示完全正确(重删率和恢复出的数据都是对的);将哈希表和SHA1全部改用成熟的Gnome Library和openssl后,问题依旧;重复试验,出问题的文件会变化,说明和数据集本身无关。于是开始使用md5su 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(203) 评论(0) 推荐(0)

磁盘有时也不可靠

摘要: 实验服务器的磁盘是最近买的,当卖家问我要普通的还是高级的, 我选择了普通,现在追悔莫及。今天的分析更加详细。首先发现每次实验,出错的文件都不一样,所以应该不是临界条件的问题。下表总结了出错的位置,原始数据是数据的正确格式,第一次备份和第二次备份分别代表两次连续备份,我恢复出两次备份的数据与原始数据进行比较,发现错误都是某个字符发生了变化:文件名原始数据第一次备份第二次备份linux-2.6.34.1.tar;;?linux-2.6.34.5.taraaelinux-2.6.35.1.tar(space)(space)$linux-2.6.35.2.taruuwlinux-2.6.35.3.ta 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(229) 评论(0) 推荐(0)

导航