浅析Docker不适合跑数据库的原因:数据安全、IO性能瓶颈、资源隔离

  背景:之前我们测试环境的 pg 数据库是装在 docker 上的,映射了数据卷;然后生产环境是使用的云数据库。但是测试数据库的容器经常丢数据,虽然映射了数据卷,但是 docker 容器启停后,总还是会丢失数据。所以后来就自己在测试主机上安装了 pg 数据库,就不会丢失数据了。

  正好最近看到了这篇文章,与这个背景不谋而合。

  容器的定义:容器是为了解决“在切换运行环境时,如何保证软件能够正常运行”这一问题。

  目前,容器和 Docker 是技术领域最热门的词语,无状态的服务容器化已经是大势所趋,同时也带来了一个热点问题被大家所争论不以:数据库 MySQL 是否需要容器化?认真分析大家的各种观点,发现赞同者仅仅是从容器优势的角度来阐述 MySQL 需要容器化,几乎没有什么业务场景进行验证自己的观点。

  反过来再看反对者,他们从性能、数据安全等多个因素进行阐述 MySQL不需要容器化,也举证了一些不适合的业务场景。下面,我们就聊一下 Docker 不适合跑 MySQL 的 N 个原因!

一、数据安全问题

  不要将数据储存在容器中,这也是 Docker 官方容器使用技巧中的一条。

  容器随时可以停止、或者删除。当容器被 rm 掉,容器里的数据将会丢失。为了避免数据丢失,用户可以使用数据卷挂载来存储数据。

  但是容器的 Volumes 设计是围绕 Union FS 镜像层提供持久存储,数据安全缺乏保证。如果容器突然崩溃,数据库未正常关闭,可能会损坏数据。

  另外,容器里共享数据卷组,对物理机硬件损伤也比较大。

二、性能问题

  大家都知道,MySQL 属于关系型数据库,对 IO 要求较高。当一台物理机跑多个时,IO 就会累加,导致 IO 瓶颈,大大降低 MySQL 的读写性能。

  在一次 Docker 应用的十大难点专场上,某国有银行的一位架构师也曾提出过:“数据库的性能瓶颈一般出现在 IO 上面,如果按 Docker 的思路,那么多个 docker 最终 IO 请求又会出现在存储上面。现在互联网的数据库多是 share nothing 的架构,可能这也是不考虑迁移到 Docker 的一个因素吧”。

  其实也有相对应的一些策略来解决这个问题,比如:

1、数据库程序与数据分离

  如果使用 Docker 跑 MySQL,数据库程序与数据需要进行分离,将数据存放到共享存储,程序放到容器里。

  如果容器有异常或 MySQL 服务异常,自动启动一个全新的容器。另外,建议不要把数据存放到宿主机里,宿主机和容器共享卷组,对宿主机损坏的影响比较大。

2、跑轻量级或分布式数据库

  Docker 里部署轻量级或分布式数据库,Docker 本身就推荐服务挂掉,自动启动新容器,而不是继续重启容器服务。

3、合理布局应用

  对于 IO 要求比较高的应用或者服务,将数据库部署在物理机或者 KVM 中比较合适。目前腾讯云的 TDSQL 和阿里的 Oceanbase 都是直接部署在物理机器,而非 Docker。

三、状态问题

  在 Docker 中水平伸缩只能用于无状态计算服务,而不是数据库。

  Docker 快速扩展的一个重要特征就是无状态,具有数据状态的都不适合直接放在 Docker 里面,如果 Docker 中安装数据库,存储服务需要单独提供。

  目前,腾讯云的 TDSQL(金融分布式数据库)和阿里云的 Oceanbase(分布式数据库系统)都直接运行中在物理机器上,并非使用便于管理的 Docker 上。

四、资源隔离方面

  资源隔离方面,Docker 确实不如虚拟机 KVM,Docker 是利用 Cgroup 实现资源限制的,只能限制资源消耗的最大值,而不能隔绝其他程序占用自己的资源。如果其他应用过渡占用物理机资源,将会影响容器里 MySQL 的读写效率。

  需要的隔离级别越多,获得的资源开销就越多。相比专用环境而言,容易水平伸缩是Docker的一大优势。然而在 Docker 中水平伸缩只能用于无状态计算服务,数据库并不适用。

五、难道 MySQL 不能跑在容器里吗

  MySQL 也不是全然不能容器化:

1、对数据丢失不敏感的业务(例如用户搜索商品)就可以数据化,利用数据库分片来来增加实例数,从而增加吞吐量。

2、Docker 适合跑轻量级或分布式数据库,当 Docker 服务挂掉,会自动启动新容器,而不是继续重启容器服务。

3、数据库利用中间件和容器化系统能够自动伸缩、容灾、切换、自带多个节点,也是可以进行容器化的。

  典型案例:同程旅游、京东、阿里的数据库容器化都是不错的案例,大家可以自行去查看。

学习文章:https://mp.weixin.qq.com/s/tjp8YjFGtH2Uq3CkUUngLQ

  个人总结:

  状态问题、资源隔离方面不是很懂,其实我们只需要了解到:

1、数据安全方面(就如我们测试环境那样,启停之后会经常丢失数据)

2、IO 性能方面(数据库性能的最大瓶颈,就是 IO 性能瓶颈,当一台物理机跑多个 docker 容器时,IO 就会累加,导致 IO 瓶颈,大大降低 MySQL 的读写性能)

  了解这 2 方面就足够不使用  docker 了。

3、资源隔离方面,我的理解是在主机上安装数据库,它可能隔离了一定的资源,可以保证比如说给我 1g 的使用空间;但是使用 docker 容器的话,可能满足不了这个条件,当其他应用资源占据比较大时,可能就会侵占这个数据库容器的资源。(不知道理解的对不对)

posted @ 2017-11-10 16:04  古兰精  阅读(1165)  评论(0编辑  收藏  举报