一个共享内存hash

Background

我们的多进程程序碰到一个需求：做key-value查询，然后拿获取到的value去做一些事情。这些key-value存储在很多词典文件中，数量级>10w，如果每个进程都加载一份，内存上是很浪费的，所以需要共享访问，看起来就像是一个IPC使用std::map的场景。有很多方法都可以选择，挑选几类比较下。

Socket

多进程程序作为clients，加载词典提供查询服务的程序作为server，通过网络来交互，很好的避免了共享带来的资源竞争，架构上看是解耦的，细看一下交互过程，client首先send request，触发server查询词典，经过两次memcpy后将value送出，随后client也要经过两次memcpy，最后get response，性能上比较差。

SQLlite

同一sqllite db可以被多进程直接访问，性能相比socket要好的多了，但它的写操作是锁保护的，即同时只能有一个进程访问。sqllite是内存数据库，支持KeyValueDatabase,但根据sqllite官方公布的测试数据来看select性能并不理想。

Memory-mapped file

内存映射文件是较理想的进程共享方法，这里是使用方法。我们的词典文件比较多也比较大，频繁的read/write必然会产生大量的系统调用和memory copy，这块可以用mmap来优化(详见)。词典文件内容仅仅从disk映射到了内存，从mmap到hash还需要把原始数据映射成hash，这块如果每个进程都要做一次，性能也好不到哪里。

Shm-hash

shm_hash本质是一个hash，它的时间复杂度也是O(1)，设想我们给hash增加一个方法：

//从内存地址直接映射成hash
hash_int_from_memory(void *mem, unit32_t len)

这个方法看似不起眼，但却可以为我们提供避免重复构造hash的功能。

Final

用伪代码描述下shm_hash结合mmap在各个进程的构造过程

//******begin
//进程A将数据导入到hash
fd = fopen("hash.mmap");
lseek(fd);
ptr = mmap(fd);
hash_int_from_memory(ptr);
while(have) {
    hash_add("key", "value");
}
//******end

//******begin
//进程A将数据导入到hash
fd = fopen("hash.mmap");
hash_int_from_memory(ptr);
//******end

posted on 2015-04-01 20:05 gisTao 阅读(1327) 评论(0) 收藏举报

刷新页面返回顶部

gisTao