fastDFS简介（一）

fastDFS简介（一）
fastDFS服务器的安装（二）
spring boot集成fastDFS以及入门小Demo（三）
fastDFS异常的处理（四）

文章目录

一、fastDFS简介
二、优缺点
三、fastDFS的存储策略
四、上传机制
五、下载机制
六、FastDFS的文件同步

一、fastDFS简介

FastDFS 是一个开源的轻量级高性能分布式文件系统（DFS）。它的主要功能包括：文件存储，文件同步和文件访问，以及高容量和负载平衡。主要解决了海量数据存储问题，特别适合以中小文件（建议范围：4KB < file_size <500MB）为载体的在线服务。

FastDFS是一款开源的轻量级分布式文件系统纯C实现，支持Linux、FreeBSD等UNIX系统类google FS，不是通用的文件系统，只能通过专有API访问；

FastDFS 系统有三个角色：跟踪服务器(Tracker Server)、存储服务器(Storage Server)和客户端(Client)。

Tracker Server：跟踪服务器，主要做调度工作，起到均衡的作用；在内存中记录集群中所有存储组和存储服务器的状态信息，是客户端和数据服务器交互的枢纽。相比GFS中的master更为精简，不记录文件索引信息，占用的内存量很少； Tracker是FastDFS的协调者，负责管理所有的 storage server和 group，每个 storage 在启动后会连接 Tracker，告知自己所属 group 等信息，并保持周期性心跳。

Storage Server：存储服务器，主要提供容量和备份服务；文件和文件属性（meta data）都保存到存储服务器上。Storage server直接利用OS的文件系统调用管理文件；以 group 为单位，每个 group 内可以有多台 storage server，数据互为备份。也就是一个分组中有多台服务器，但是每台服务器中的数据都是一样的，作为高可用的作用。

Client：客户端，上传下载数据的服务器，也就是我们自己的项目所部署在的服务器。

Tracker相当于FastDFS的大脑，不论是上传还是下载都是通过tracker来分配资源；客户端一般可以使用ngnix等静态服务器来调用或者做一部分的缓存；存储服务器内部分为卷（或者叫做组），卷于卷之间是平行的关系，可以根据资源的使用情况随时增加，卷内服务器文件相互同步备份，以达到容灾的目的。

二、优缺点

优点 :

存储端一台主机一台备机, 我们平时往主机中存储, 主机会将数据同步到备机, 主机和备机中存储的内容一模一样,这叫做冗余存储起到了容灾的效果.；
主机和备机之间有心跳检测机制, 一旦主机宕机, 被替代主机工作, 有高可用的特性；
主机和备机为一组, 理论上可以无限扩展, 所以理论上存储端集群中存储容量是无限大的, 扩展性好.
管理端有负载均衡的特性, 会在高并发的时候, 均匀分配请求到每一台存储端服务器上, 所以我们的fastDFS有负载均衡特性, 可以承载高并发存储任务.;

缺点 :
结构复杂, 需要的服务器很多, 在实际线上环境中成本比较高.

三、fastDFS的存储策略

为了支持大容量，存储节点（服务器）采用了分卷（或分组）的组织方式。存储系统由一个或多个卷组成，卷与卷之间的文件是相互独立的，所有卷的文件容量累加就是整个存储系统中的文件容量。一个卷可以由一台或多台存储服务器组成，一个卷下的存储服务器中的文件都是相同的，卷中的多台存储服务器起到了冗余备份和负载均衡的作用。

在卷中增加服务器时，同步已有的文件由系统自动完成，同步完成后，系统自动将新增服务器切换到线上提供服务。当存储空间不足或即将耗尽时，可以动态添加卷。只需要增加一台或多台服务器，并将它们配置为一个新的卷，这样就扩大了存储系统的容量。

四、上传机制

Storage Server会定期的向Tracker Server发送自己的存储信息。当Tracker Server Cluster中的Tracker Server不止一个时，各个Tracker之间的关系是对等的，所以客户端上传时可以选择任意一个Tracker。当Tracker收到客户端上传文件的请求时，会为该文件分配一个可以存储文件的group，当选定了group后就要决定给客户端分配group中的哪一个storage server。当分配好storage server后，客户端向storage发送写文件请求，storage将会为文件分配一个数据存储目录。然后为文件分配一个fileid，最后根据以上的信息生成文件名存储文件

内部机制如下：

1、选择tracker server

当集群中不止一个tracker server时，由于tracker之间是完全对等的关系，客户端在upload文件时可以任意选择一个trakcer。选择存储的group 当tracker接收到upload file的请求时，会为该文件分配一个可以存储该文件的group，支持如下选择group的规则：

1、Round robin，所有的group间轮询
2、Specified group，指定某一个确定的group
3、Load balance，剩余存储空间多多group优先

2、选择storage server

当选定group后，tracker会在group内选择一个storage server给客户端，支持如下选择storage的规则：

1、Round robin，在group内的所有storage间轮询
2、First server ordered by ip，按ip排序
3、First server ordered by priority，按优先级排序（优先级在storage上配置）

五、下载机制

客户端带上文件名信息请求Tracker服务获取到存储服务器的ip地址和端口，然后客户端根据返回的IP地址和端口号请求下载文件，存储服务器接收到请求后返回文件给客户端。

跟upload file一样，在download file时客户端可以选择任意tracker server。tracker发送download请求给某个tracker，必须带上文件名信息，tracke从文件名中解析出文件的group、大小、创建时间等信息，然后为该请求选择一个storage用来服务读请求。由于group内的文件同步时在后台异步进行的，所以有可能出现在读到时候，文件还没有同步到某些storage server上，为了尽量避免访问到这样的storage，
tracker按照如下规则选择group内可读的storage。

1、该文件上传到的源头storage - 源头storage只要存活着，肯定包含这个文件，源头的地址被编码在文件名中。
2、文件创建时间戳==storage被同步到的时间戳且(当前时间-文件创建时间戳) > 文件同步最大时间（如5分钟) - 文件创建后，认为经过最大同步时间后，肯定已经同步到其他storage了。
3、文件创建时间戳 < storage被同步到的时间戳。 - 同步时间戳之前的文件确定已经同步了
4、(当前时间-文件创建时间戳) > 同步延迟阀值（如一天）。 - 经过同步延迟阈值时间，认为文件肯定已经同步了。

六、FastDFS的文件同步

写文件时，客户端将文件写至group内一个storage server即认为写文件成功，storage server写完文件后，会由后台线程将文件同步至同group内其他的storage server。

每个storage写文件后，同时会写一份binlog，binlog里不包含文件数据，只包含文件名等元信息，这份binlog用于后台同步，storage会记录向group内其他storage同步的进度，以便重启后能接上次的进度继续同步；进度以时间戳的方式进行记录，所以最好能保证集群内所有server的时钟保持同步。

storage的同步进度会作为元数据的一部分汇报到tracker上，tracke在选择读storage的时候会以同步进度作为参考。

posted @ 2019-09-21 16:55 ah_lydms 阅读(289) 评论(0) 收藏举报

刷新页面返回顶部