Ceph分布式文件系统的代码分析的文章网上是比较少的，本团队成员对ceph做过详细的代码阅读，包括mds、osd、client等模块，但是缺少条理清晰的文档总结。暂且先放上OSD的代码分析，等后续整理陆续放上其它模块的。

1 OSD的基本结构

主要的类，涉及的线程，工作的方式

1.1 类OSD

该类主要用以处理网络消息，与mds客户端等之间的网络连接的维护。当收到客户端或者mds对对象的数据请求后，交给相关的类进行处理。

1.1.1 主要对象

ObjectStore *store; /*对object访问接口的封装**/

OSDSuperblock superblock; 主要是版本号等信息

OSDMapRef osdmap;

1.1.2 OSD中的线程池

[1] op_tp:

op_wq(this, g_conf->osd_op_thread_timeout, &op_tp)

scrub_finalize_wq(this, g_conf->osd_scrub_finalize_thread_timeout, &op_tp)

这里的op_wq是当OSD中当有请求操作时，会将该操作分配给所属的PG处理：

涉及的操作类型包括：CEPH_MSG_OSD_OP(client op) , MSG_OSD_SUBOP(for replication etc.) ,MSG_OSD_SUBOPREPLY。这些操作都要交给PG处理。

通过方法enqueue_op(pg, op);加入队列

// add to pg's op_queue

pg->op_queue.push_back(op); //该pg中加入该操作

op_wq.queue(pg); //由于该pg有了操作，将pg入队，op_tp中的线程会处理

其中op_wq的定义如下：

struct OpWQ : public ThreadPool::WorkQueue<PG> {

OSD *osd;

OpWQ(OSD *o, time_t ti, ThreadPool *tp)

: ThreadPool::WorkQueue<PG>("OSD::OpWQ", ti, ti*10, tp), osd(o) {}

bool _enqueue(PG *pg);

void _dequeue(PG *pg) {

assert(0);

}

bool _empty() {

return osd->op_queue.empty();

}

PG *_dequeue();

void _process(PG *pg) {

osd->dequeue_op(pg);

}

void _clear() {

assert(osd->op_queue.empty());

}

} op_wq;

OpWQ主要操作osd->op_queue，即deque<OpSequencer*> op_queue;

[2] recovery_tp

recovery_wq(this, g_conf->osd_recovery_thread_timeout, &recovery_tp)

struct RecoveryWQ : public ThreadPool::WorkQueue<PG> {

OSD *osd;

RecoveryWQ(OSD *o, time_t ti, ThreadPool *tp)

: ThreadPool::WorkQueue<PG>("OSD::RecoveryWQ", ti, ti*10, tp), osd(o) {}

RecoveryWQ 主要操作osd->recovery_queue，实际上封装与recovery相关的操作，这里recovery操作具体由每个PG执行。

void _process(PG *pg) {

osd->do_recovery(pg);

}

[3] disk_tp

remove_wq(this, g_conf->osd_remove_thread_timeout, &disk_tp)

osd->backlog_queue

// backlogs

xlist<PG*> backlog_queue;

rep_scrub_wq(this, g_conf->osd_scrub_thread_timeout, &disk_tp)

struct RepScrubWQ : public ThreadPool::WorkQueue<MOSDRepScrub> {

private:

OSD *osd;

list<MOSDRepScrub*> rep_scrub_queue;

snap_trim_wq(this, g_conf->osd_snap_trim_thread_timeout, &disk_tp)

osd->snap_trim_queue

// -- snap trimming --

xlist<PG*> snap_trim_queue;

backlog_wq(this, g_conf->osd_backlog_thread_timeout, &disk_tp)

osd->backlog_queue

// backlogs

xlist<PG*> backlog_queue;

[4] command_tp

command_wq(this, g_conf->osd_command_thread_timeout, &command_tp)

list<Command*> command_queue;

osd->command_queue

void _process(Command *c) {

osd->osd_lock.Lock();

osd->do_command(c->con, c->tid, c->cmd, c->indata);

osd->osd_lock.Unlock();

delete c;

}

1.2 PG

PG，对象访问的上层控制，确定读取的对象的位置等信息，对对象的实际的读写数据控制由FileStore完成。

Ceph系统中为了管理对象，将对象进行了分组。PG即place_group就是ceph中的分组。

1.2.1 主要对象

class PG {

struct Info { 描述一个PG的基本信息

pg_t pgid;

pg_stat_t stats;

struct History {} 创建的版本号，修改时间等

}

struct Query { Query - used to ask a peer for information about a pg.向其他OSD查询一个pg的信息

__s32 type;

eversion_t since;

Info::History history;

}

struct Log { incremental log of recent pg changes. pg修改的日志

struct Entry {

__s32 op;

hobject_t soid;

osd_reqid_t reqid;

uint64_t offset; // [soft state] my offset on disk

}

list<Entry> log; // the actual log.

}

IndexLog - adds in-memory index of the log, by oid. 日志在内存中的索引

struct IndexedLog : public Log {

hash_map<hobject_t,Entry*> objects; // ptrs into log. be careful! 每个对象对应的日志

hash_map<osd_reqid_t,Entry*> caller_ops;

list<Entry>::iterator complete_to; // recovery pointers

}

class OndiskLog {

uint64_t tail; // first byte of log.

uint64_t head;

}

struct Missing { //summary of missing objects.

//kept in memory, as a supplement to Log.

map<hobject_t, item> missing; // oid -> (need v, have v)

map<version_t, hobject_t> rmissing; // v -> oid

}

list<Message*> op_queue; // op queue PG操作的队列

// pg state

Info info;

const coll_t coll;

IndexedLog log;

hobject_t log_oid;

hobject_t biginfo_oid;

OndiskLog ondisklog;

Missing missing;

int role; // 0 = primary, 1 = replica, -1=none. 该pg的角色，主，备

/* Encapsulates PG recovery process */ PG recover处理的过程

class RecoveryState {

RecoveryMachine machine;

RecoveryCtx *rctx;

}

父类PG主要是用以对PG本身的维护，对PG的修改，日志的管理等。

Srcub的过程：

PG收集其管理的所有的objects，并向PG的副本请求对象的信息，进行对象状态的异常检查。

ReplicatedPG主要用以操作对象，对象操作接口的封装。

1.3 FileStore

负责向osd设备中数据的读写，作为类OSD的成员对象store出现。

1.4 FileJournal

负责日志的管理，通过日志恢复数据等，作为类OSD的成员对象journal出现。

2 OSD读写数据的过程

2.1 客户端发起请求的过程

int Client::ll_read(Fh *fh, loff_t off, loff_t len, bufferlist *bl)

int Client::_read(Fh *f, int64_t offset, uint64_t size, bufferlist *bl)

int Client::_read_sync(Fh *f, uint64_t off, uint64_t len, bufferlist *bl)

//前几个参数均在结构体Inode中

Inode *in = f->inode;

filer->read_trunc(in->ino, &in->layout, in->snapid,

pos, left, &tbl, 0,

in->truncate_size, in->truncate_seq,

onfinish);

int read_trunc(inodeno_t ino,

ceph_file_layout *layout,

snapid_t snap,

uint64_t offset,

uint64_t len,

bufferlist *bl, // ptr to data

int flags,

uint64_t truncate_size,

__u32 truncate_seq,

Context *onfinish)

向osd读取数据的过程：

1 将要读取数据的长度和偏移转化为要访问的对象

file_to_extents(ino, layout, offset, len, extents);

2 向osd发起请求

objecter->sg_read(extents, snap, bl, flags, onfinish);

Filer.h

//计算需要读取的数据所在的extent,extent沿用了brtfs文件系统的概念

// ino ==> extents, extent实际上是object,offset

根据文件偏移访问对象的过程：

void Filer::file_to_extents(inodeno_t ino, ceph_file_layout *layout,

uint64_t offset, uint64_t len,

vector<ObjectExtent>& extents)

__u32 object_size = layout->fl_object_size;

__u32 su = layout->fl_stripe_unit;

__u32 stripe_count = layout->fl_stripe_count;

uint64_t stripes_per_object = object_size / su;

每个对象有两部分ino和objectno

// layout into objects

uint64_t blockno = cur / su; // which block

uint64_t stripeno = blockno / stripe_count; // which horizontal stripe (Y)

uint64_t stripepos = blockno % stripe_count; // which object in the object set (X)

uint64_t objectsetno = stripeno / stripes_per_object; // which object set

uint64_t objectno = objectsetno * stripe_count + stripepos; // object id

object_t oid = file_object_t(ino, objectno);

ObjectExtent *ex = 0;//主要由下面的两个参数组成

ex->oloc = objecter->osdmap->file_to_object_locator(*layout);

ex->oid = oid;

object_locator_t file_to_object_locator(const ceph_file_layout& layout) const {

return object_locator_t(layout.fl_pg_pool, layout.fl_pg_preferred);

}

Objecter.h

void sg_read_trunc(vector<ObjectExtent>& extents, snapid_t snap, bufferlist *bl, int flags,

uint64_t trunc_size, __u32 trunc_seq, Context *onfinish)

//对集合中的每个ObjectExtent进行处理

Objecter.h tid_t read_trunc(const object_t& oid, const object_locator_t& oloc,

uint64_t off, uint64_t len, snapid_t snap, bufferlist *pbl, int flags,

uint64_t trunc_size, __u32 trunc_seq,

Context *onfinish,

eversion_t *objver = NULL, ObjectOperation *extra_ops = NULL)

//该函数发出请求

Objecter.h tid_t read_trunc(const object_t& oid, const object_locator_t& oloc,

uint64_t off, uint64_t len, snapid_t snap, bufferlist *pbl, int flags,

uint64_t trunc_size, __u32 trunc_seq,

Context *onfinish,

eversion_t *objver = NULL, ObjectOperation *extra_ops = NULL)

2.2 OSD的op_tp线程处理数据读取

处理的过程如下：

OpWQ的 void _process(PG *pg) 到 osd->dequeue_op(pg);中的代码如下：

if (op->get_type() == CEPH_MSG_OSD_OP) {

if (op_is_discardable((MOSDOp*)op))

op->put();

else

pg->do_op((MOSDOp*)op); // do it now

àvoid ReplicatedPG::do_op(MOSDOp *op)

à ReplicatedPG::do_op(MOSDOp *op)

à prepare_transaction(ctx); int ReplicatedPG::prepare_transaction(OpContext *ctx)

àint result = do_osd_ops(ctx, ctx->ops, ctx->outdata);

int ReplicatedPG::do_osd_ops(OpContext *ctx, vector<OSDOp>& ops, bufferlist& odata)

该函数的case CEPH_OSD_OP_READ: 分支

int r = osd->store->read(coll, soid, op.extent.offset, op.extent.length, bl);

可以看到最终到了FileStore对象中。

int FileStore::read(coll_t cid, const hobject_t& oid,

uint64_t offset, size_t len, bufferlist& bl)

read函数中主要调用了int fd = lfn_open(cid, oid, O_RDONLY);

我们可以看到定位一个对象需要的参数：

int FileStore::lfn_open(coll_t cid, const hobject_t& oid, int flags, mode_t mode)

r = get_index(cid, &index);

get_index的过程：在当前正在使用的index集合中判断是否正在被使用，如果被使用需要等待释放，否则建立索引。

int IndexManager::get_index(coll_t c, const char *path, Index *index) {

Mutex::Locker l(lock);

while (1) {

/// Currently in use CollectionIndices

// map<coll_t,std::tr1::weak_ptr<CollectionIndex> > col_indices;

if (!col_indices.count(c)) {

int r = build_index(c, path, index);

if (r < 0)

return r;

(*index)->set_ref(*index);

col_indices[c] = (*index);

break;

}else {

cond.Wait(lock);

}

return 0;

}

建立索引的过程：

int IndexManager::build_index(coll_t c, const char *path, Index *index) {

*index = Index(new FlatIndex(path),

RemoveOnDelete(c, this));

或者：

*index = Index(new HashIndex(path, g_conf->filestore_merge_threshold,

g_conf->filestore_split_multiple, version),

RemoveOnDelete(c, this));

这里coll_t的定义为：

class coll_t {

public:

const static coll_t META_COLL;

const static coll_t TEMP_COLL;

coll_t()

: str("meta")

{ }

std::string str;

coll_t实际上代表了一个目录，目录中是对象的集合。HashIndex在一定的条件下会拆分或者合并其拥有的子集合。

r = index->lookup(oid, &path, &exist);

r = ::open(path->path(), flags, mode);

3 OSD中的日志、事务

这里对对象的写或者修改操作最终会交给FileStore对象处理，提交到该对象的嵌套类OpSequencer中的链表q中，日志的序列号加入到链表jq中。在flush时，根据日志的序列号保证了日志未flush前，操作不会写入磁盘。

在一个操作的处理过程中，最终由PG发出处理该动作。上述的序列关系记录在PG对象中的ObjectStore::Sequencer osr;中。

3.1 对于对象的操作的处理过程

对object的操作最终由PG类进行处理，过程如下：

ReplicatedPG::do_op

1 如果是CEPH_OSD_FLAG_PGOP，由do_pg_op处理返回。

2 如果该pg状态为: finalizing_scrub并且有写操作(CEPH_OSD_FLAG_WRITE)，加入到waiting_for_active。

3 如果该对象在missing列表中：is_missing_object，加入等待列表wait_for_missing_object。

4 如果该对象在degraded列表并且有写操作，加入对一个的等待列表wait_for_degraded_object。

5 从磁盘或者缓存中读取对象的属性信息：find_object_context

6 如果失败，不能找到，将操作加入到miss等待列表：wait_for_missing_object

7 根据得到的对象的信息判断，如果是读请求并且是lost状态，返回出错

8 根据pg的mode判断该osd_op的合法性，如果不成功加入到mode的等待列表中

9 遍历该op中的ops，获得每个操作涉及的对象的信息，加入集合src_obc中。

10 如果是write操作，相应的检查snap version

11 通过加读锁，进行操作prepare_transaction，操作完后解除读锁。ObjectContext:: ondisk_read_lock

该函数中如果是读操作读取该对象的信息

写操作只进行基本的检查

ReplicatedPG::prepare_transaction 执行操作，此时数据、日志都在内存中。

1> do_osd_ops

int ReplicatedPG::do_osd_ops(OpContext *ctx, vector<OSDOp>& ops,bufferlist& odata)

CEPH_OSD_OP_WRITE分支：

/**将数据写入到事务缓存中*/

t.write(coll, soid, op.extent.offset, op.extent.length, nbl);

2> do_osd_op_effects

3> 如果是读请求返回

4> 修改操作添加日志

ctx->log.push_back(Log::Entry(logopcode, soid, ctx->at_version, old_version, ctx->reqid, ctx->mtime));

12 准备回应MOSDOpReply，如果是read操作或者是上一步出错，回应。

13 执行到这里只能是写操作。

append_log(ctx->log, pg_trim_to, ctx->local_t);

PG::append_log

1> 将ctx中的log加入到事务ctx->local_t中的缓存中。

创建新的RepGather，rep_op,并执行：

14 向该pg的副本发送此次请求：

ReplicatedPG::issue_repop

向PG的acting列表中的osd发送消息MOSDSubOp。

当其他的osd收到该请求后：

1> OSD::handle_sub_op此时只是将该op压入队列中

2> 在函数OSD::dequeue_op处理该请求：

ReplicatedPG::do_sub_op

ReplicatedPG::sub_op_modify ------------------------此时执行对osd的数据修改动作

将修改操作作为事务提交到队列中：

int r = osd->store->queue_transactions(&osr, rm->tls, onapply, oncommit);

这里将该操作提交给了两个线程池的，第一个线程池负责将日志写入磁盘。第二个负责执行该操作。如果没有使用btrfs文件系统作为osd存储，会先进行日志的过程，即将操作加入到日志队列中，当日志写入磁盘后，通过回调将操作加入到操作队列中。

这里注册的两个回调：

Context *oncommit = new C_OSD_RepModifyCommit(rm); 当日志写入磁盘后被调用

Context *onapply = new C_OSD_RepModifyApply(rm); 当该操作被处理后被调用

ReplicatedPG::sub_op_modify_applied

MOSDSubOpReply CEPH_OSD_FLAG_ACK

ReplicatedPG::sub_op_modify_commit

MOSDSubOpReply CEPH_OSD_FLAG_ONDISK

当收到其他的osd的回应时：

OSD::handle_sub_op_reply

ReplicatedPG::do_sub_op_reply

sub_op_modify_reply(r);

ReplicatedPG::repop_ack

如果是CEPH_OSD_FLAG_ONDISK，则从下面集合中删除：

repop->waitfor_disk.erase(fromosd);

repop->waitfor_ack.erase(fromosd);

否则：

repop->waitfor_ack.erase(fromosd);

每收到一次ack，都会调用函数eval_repop

15 eval_repop

当已经收到其他的osd回应时(代码中的注释的意思)：

apply_repop 执行此次动作。执行的过程与其他的osd执行过程类似。该函数将 repop->applying = true;

多注册了一个回调：ReplicatedPG::C_OSD_OndiskWriteUnlock::finish

当repop->waitfor_disk.empty()为空时：

此时向请求的发出者回应：MOSDOpReply CEPH_OSD_FLAG_ACK | CEPH_OSD_FLAG_ONDISK

当repop->waitfor_ack.empty()为空时：

向此次请求的发出者回应：MOSDOpReply CEPH_OSD_FLAG_ACK

此时写入的数据已经可读，但未commit

注意，两个回应中，第一个如果回应了就包含了第二个。两种回应只存在一个。

当repop->waitfor_ack.empty() && repop->waitfor_disk.empty()两者都为空时，将此次的repop操作从队列中删除。

3.2 修改操作的处理

可以看到对于修改操作，需要通过日志、事务进行处理，将操作加入到日志，事务的过程为：

FileStore::queue_transactions的过程：

当日志可写时：

1 创建FileStore:: Op op = build_op(tls, onreadable, onreadable_sync);

2 op_queue_reserve_throttle(o);

==> FileStore::_op_queue_reserve_throttle 当队列的操作数过多，或者队列中操作数据长度过大，阻塞等待。在某个操作处理结束后，_void_process_finish会唤醒。

3 o->op = op_submit_start(); ==>ops_submitting.push_back 获得操作的序列号

4如果m_filestore_journal_parallel，即这里将该操作同时加入到日志队列和FileStore的操作队列中。

1>_op_journal_transactions(o->tls, o->op, ondisk); 日志提交到日志队列的过程

如果日志可写

journal->submit_entry(op, tbl, data_align, onjournal);

->completions.push_back(onjournal)

-> writeq.push_back (write_item(seq, e, alignment))

否则加入等待队列：commit_waiters[op].push_back(onjournal);

2>queue_op(osr, o);

_op_apply_start(o->op);àJournalingObjectStore::_op_apply_start

当不是blocked状态时，没有处理，如果是blocked状态，等待被唤醒

osr->queue(o); 加入到OpSequencer的队列q中

op_wq.queue(osr); 此时将该操作加入到FileStore对象的op_wq队列中。

5如果m_filestore_journal_writeahead(当btrfs没有enable时为true)

osr->queue_journal(o->op);

_op_journal_transactions(o->tls, o->op, new C_JournaledAhead(this, osr, o, ondisk));

即当日志写入成功后，执行回调函数：

C_JournaledAhead::finish

fs->_journaled_ahead(osr, o, ondisk);

queue_op(osr, o); 此时将操作加入到操作队列中

osr->dequeue_journal(); 从日志中去除

ondisk_finisher.queue(ondisk); 调用回调

6 op_submit_finish(o->op); ==> ops_submitting.pop_front();

此时返回。

这里不考虑btrfs的情况，对于一个操作首先提交到日志中，日志flush之后操作提交到队列中。

3.3 日志的写入

而提交日志，可以看到在函数_op_journal_transactions中，日志最终被提交到了FileJournal类中的writeq队列里。

该队列由下面的线程处理：

FileJournal::write_thread_entry

对writeq进行循环：

1 int r = prepare_multi_write(bl, orig_ops, orig_bytes);

prepare_single_write

check_for_full

journalq.push_back(pair<uint64_t,off64_t>(seq, queue_pos)); 这里只记录了该事务的序列号以及在日志中的位置。

2 do_write(bl); bl缓存中记录了wrteq取出的事务的信息，以及在日志中的相关信息。

FileJournal::do_write

1> FileJournal::write_bl将缓存中的数据写入磁盘文件中。

bl.write_fd(fd);

==>buffer::list::write_fd

2> 如果不是directio，flush数据：fdatasync

3> queue_completions_thru:

将completions中的对象加入到finisher中。这里是之前注册的ondisk回调

即：ReplicatedPG::sub_op_modify_commit

3 put_throttle(orig_ops, orig_bytes); 唤醒因为日志中操作数过多或者数据过大而阻塞的对象。

3.4 写操作的处理

FileStore中的op_tp线程池在该类的mount方法被调用时启动。

Op_tp负责管理FileStore的op_wq。也就是说在FileStore::queue_transactions中，将操作加入到op_wq中，会有线程去处理。处理的过程为：

根据调用栈，可以看到对于一个osd的操作最终由op_tp线程池处理，处理的主循环为：

ThreadPool::worker

WorkQueue_* wq;

wq = work_queues[last_work_queue];

wq->_void_process(item);

==> OSD::OpWQ::_process

==> FileStore::_do_op

wq->_void_process_finish(item);

==> OSD::OpWQ::_process

==> FileStore::_finish_op

1 _op_queue_release_throttle

调整op_queue,并唤醒 op_throttle_cond.Signal();

2如果有onreadable_sync回调，调用。

3 op_finisher.queue(o->onreadable); 交给finisher线程处理。

一个操作处理的过程：

FileStore::_do_op(OpSequencer *osr)

do_transactions(o->tls, o->op);

_transaction_start (bytes, ops) 当为brtfs时该函数才有实质性动作

对于tls中的每个transaction调用：

_do_transaction(**p, op_seq) 对于write操作调用_write方法，将数据写入到对应的对象中。

FileStore::_write

此时会将数据写入到文件，但不是sync，会尝试加入到flush队列中进行sync写。

_transaction_finish 同样，当为btrfs时该函数才有实质性的动作

op_apply_finish(o->op); 唤醒操作

3.5 事务的sync过程：

在FileStore::mount方法中，会创建sync线程 sync_thread.create();

该线程的入口函数为：

void FileStore::sync_entry()

主要通过sync函数，将FileStore打开的文件进行数据的flush磁盘操作。

::fsync(op_fd);

或者 sync_filesystem(basedir_fd);

函数FileStore::_do_transaction的末尾：

即执行了实际操作之后trigger_commit 可以看到该函数中通过cond唤醒了sync线程。

Sync后，日志如何进行trim？

3.6 日志的恢复过程

在FileStore::mount()函数中,打开日志后，会进行数据的恢复：

ret = journal_replay(initial_op_seq);

journal->read_entry(bl, seq) 每次从日志中读取一个entry出来

list<Transaction*> tls; 将entry所有的Transaction加入其中

do_transactions(tls, seq); 执行事务

journal->make_writeable(); 恢复完毕，重新启动写线程

4 PG对object的组织管理

在写操作过程中，创建新的对象的过程

删除对象

posted on 2013-03-01 18:11 DaoWoo 阅读(13511) 评论(2) 编辑收藏举报

刷新页面返回顶部

云存储开发团队

公告

1 OSD的基本结构

1.1 类OSD

1.1.1 主要对象

1.1.2 OSD中的线程池

1.2 PG

1.2.1 主要对象

1.3 FileStore

1.4 FileJournal

2 OSD读写数据的过程

2.1 客户端发起请求的过程

2.2 OSD的op_tp线程处理数据读取

3 OSD中的日志、事务

3.1 对于对象的操作的处理过程

3.2 修改操作的处理

3.3 日志的写入

3.4 写操作的处理

3.5 事务的sync过程：

3.6 日志的恢复过程

4 PG对object的组织管理