<a id="Header1_HeaderTitle" class="headermaintitle HeaderMainTitle" href="https://www.cnblogs.com/apachecn">龙哥盟

结论

总之，我们改进动态基础设施的计划包括:

定义在云资源上使用的标签，以描述发现过程中的意图
通过具有众所周知的名称的变量提供认证上下文
在部署过程中注册目标
清理云中不再存在的旧目标

感谢阅读。我们希望您和我们一样对这项功能将释放的潜力感到兴奋。

非常感谢您的任何反馈。

愉快的部署！

征求意见- ECS 与 Octopus 集成- Octopus 部署

原文：https://octopus.com/blog/rfc-ecs-integration-with-octopus

Octopus 是实现世界级部署的工具。我们一直拥有业界领先的功能来部署到您的内部基础架构，并且我们多年来一直支持 Azure 应用程序部署。

最近，我们扩展到其他主要的云服务提供商，允许您使用 Kubernetes 和 Terraform 等工具部署到 Azure 和 AWS。但是我们可以做得更多——仍然有 Octopus 没有提供一流集成的云原生服务。

我们希望 Octopus 成为您的首选，无论您是部署在本地、云还是两者的混合。这意味着为更多云原生服务产品提供一流的支持，从而简化复杂的部署。

为了实现这一目标，Octopus 建立了一个团队，致力于将 Octopus 与最受欢迎的云原生服务相集成。经过几个月的开发框架，使这些集成能够快速交付，我们现在可以与我们的客户，合作伙伴和其他内部八达通部门分享我们的目标和计划。

我们希望这个博客是许多征求意见(RFC)帖子中的第一个，在那里我们讨论提议的功能并提供反馈的机会。

我们被反复要求支持的一项云服务是 AWS ECS，这篇文章概述了我们目前正在讨论的一些新步骤和目标。

我们建议如何提供一流的 ECS 支持

亚马逊将弹性容器服务(ECS)描述为:

一种高度可伸缩的快速容器管理服务，可以轻松运行、停止和管理集群上的容器。您的容器在任务定义中定义，用于运行单个任务或服务中的任务。

Octopus 已经提供了许多功能来协调容器部署，包括通过 feeds(包括 ECR feeds)使用 Docker 图像的能力，以及通过帐户安全存储 AWS 凭证的能力。通过针对 AWS CLI 编写脚本，即使不方便，现在也有可能部署到 ECS。但是我们可以做得更好。

一个新的 ECS 目标

提议的 ECS 支持从一个代表 ECS 集群的新目标开始。该目标引用用于访问 ECS 集群的 AWS 凭据、AWS 区域和集群名称:

ECS 目标实体模型。

新的服务部署步骤

概括地说，将应用程序部署到 ECS 集群需要三个组件。

首先你需要一个 Docker 图片。我们设想您的持续集成(CI)服务器将继续构建、标记和部署这些映像到 Docker 注册表。

然后一个任务定义引用一个特定的图像标签，并为生成的容器定义许多设置，比如内存和 CPU 需求、环境变量、公开的端口等等。任务定义是不可变的，每个新的图像标签必须由任务定义的新版本捕获。

然后一个服务引用一个任务定义，以及额外的运行时细节，比如运行多少个实例，实例如何在集群中分布，在哪个 VPC 中运行，负载平衡器和伸缩需求。

我们提议的步骤提供了一个自以为是的部署工作流，它将一个 Fargate 任务定义和服务合并到一个步骤中。

您将从定义贡献给任务定义的值开始。值得注意的是，与 AWS 控制台不同，在此步骤中定义的 Docker 映像不包括标记，因为映像标记的选择将推迟到创建发布之后:

显示 Docker 图像选择的步骤实体模型。

同一步骤定义了服务属性的值:

显示服务属性和任务定义容器的步骤模型。

然后，ECS 部署将执行以下流程:

创建发布时，选择要在任务定义中定义的 Docker 图像标签。
使用特定于部署到给定环境的详细信息创建新的任务定义。
使用步骤 2 中的任务定义配置服务。

拟议方法的好处

上述目标和步骤旨在帮助那些协调 ECS 部署的人落入成功的陷阱，我们将其总结为务实部署的十大支柱。

在这第一个里程碑中，我们特别关注基础，包括实现:

所有这些特性的核心思想是，部署将通过一系列环境进行，规范环境集包括开发、测试和生产环境。

尽管 ECS 没有环境的概念，因此为了实现可重复部署，我们必须对新的步骤和目标进行建模，以促进环境进展，同时考虑到诸如环境范围变量和更新发布快照的能力等因素。

为什么使用目标？

通过将 ECS 集群的详细信息捕获为一个目标，它被限定在一个环境的范围内，并由一个角色公开，将在哪里进行部署的具体细节被从步骤中提取出来。一个步骤简单地定义它部署到的目标角色，Octopus 将确保部署发生在当前环境的正确范围的目标上。

我们认为，如果您希望采用 AWS 推荐的关于使用多个帐户的一些最佳实践，这将是非常有益的:

AWS 帐户为您的 AWS 资源提供了自然的安全性、访问和计费边界，并使您能够实现资源独立性和隔离。

对于 ECS 目标，无论是将多个逻辑环境部署到一个共享的 ECS 集群，为每个环境部署一个专用集群，还是将多个环境划分到多个 AWS 帐户，都没有什么区别。只需将每个 ECS 目标指向适当的群集，您的部署就可以跨您使用的任何环境分区进行扩展:

【T2 test account showing dev, test and production targets

抽象出任务定义版本

如果您曾经部署过一个新的 Docker 映像，首先创建一个新的任务定义版本，然后更新服务以引用它，那么您就会理解手动 ECS 部署是多么乏味。

我们的目标是让新的 ECS 部署只涉及创建一个 Octopus 版本和选择要包含的新 Docker 图像标签。通过为每个部署创建一个新的任务定义，我们消除了部署到 ECS 的人员考虑任务定义的需要。

无论您的任务定义是否包含特定于环境的值，或者每个环境是否由新 AWS 帐户中的一个集群表示，都没有关系，因为 Octopus 将代表您创建必要的任务定义。这简化了您的工作流程，以便:

创建新的 Docker 图像
用这些 Docker 图像创建一个 Octopus 版本
在您的环境中推广您的版本

它还确保您可以通过重新部署旧版本从失败的部署中恢复。

租户和渠道的高级部署

提议的步骤和目标还集成了高级 Octopus 特性，如租户、通道和生命周期。

新的 ECS 目标可以针对租户，再次从步骤中抽象出部署位置的细节，并将其封装在目标中:

同时，渠道规则可应用于 Docker 图像标签，通过生命周期促进部署模式，如热修复，允许直接部署到生产环境:

退回到云层结构

在幕后，新的步骤将生成 CloudFormation 模板，然后为您执行。这确保了所有资源都可以用现有的云生成工具进行审计和跟踪。

然而，任何固执己见的步骤最终都会遇到它不支持的用例。对于那些有特殊需求的人，或者对于那些不适应建议步骤的人，我们将提供将固执己见的步骤转换成原始 CloudFormation 模板的能力。

只需在溢出菜单中选择 Convert 选项，该步骤将被转换为 CloudFormation 部署步骤，让您完全控制您的 ECS 部署，而无需从头开始重新创建它们:

步骤模型，显示从固执己见的步骤到原始 CloudFormation 模板的转换。

为了允许部署具有 Docker 图像引用的 CloudFormation 模板(这是一个常见的场景，其中有 EKS 、 ECS 、 Lightsail 、 Lambdas 和 AppRunner ))，部署 AWS CloudFormation 模板步骤将被更新以支持附加包引用。这允许在 CloudFormation 模板中定义和引用 Docker 图像，同时将图像标签选择推迟到发布创建时间。

第一个 ECS 里程碑的范围是什么？

我们的目标是增量发布 ECS 集成，让客户更快地获得该特性，并收集早期采用者的反馈。

上面建议的步骤是我们对这一新功能发展方向的高层次审视，但第一个里程碑可能会有以下限制:

将步骤限制为仅部署到 Fargate。
仅支持滚动部署，不支持集成 CodeDeploy 蓝/绿部署。
不提供构建新负载平衡器的能力。
排除自动缩放设置。
排除应用网格和 FireLens 设置。
排除服务自动发现设置。
仅创建服务，不支持任务或计划任务。

这些特性可能会包含在后续的里程碑中，所以请关注新的 RFC 帖子。

这个什么时候发布？

我们仍处于早期规划阶段，ECS 支持目前还不是一个确定的功能，所以我们不能提供发布日期。请关注博客以获取进一步的公告。

我们需要您的反馈

ECS 支持仍处于规划阶段，因此现在正是利用您的反馈来帮助塑造这一新功能的大好时机。我们创建了一个 GitHub 问题来捕捉讨论。

具体来说，我们想知道:

建议的步骤和目标是否适用于您的 ECS 部署？
你的 ECS 架构是什么样子的？
你有多个集群吗？
你有多个 AWS 账户吗？
您正在部署哪些类型的应用程序？
您希望 Octopus 能为您解决哪些 ECS 部署挑战？

这些反馈将有助于我们提供最佳解决方案。

结论

总之，我们提议的 ECS 支持的第一个里程碑包括:

模拟环境和租赁部署的新目标。
将任务定义的创建/更新与服务的创建/更新相结合的新步骤。
将固执己见的步骤转换成原始云形成模板的能力。
跨环境的简化部署工作流，支持特定于环境的变量、渠道和生命周期。

感谢你阅读这篇文章。我们希望您和我们一样对建议的新 ECS 功能感到兴奋。

非常感谢您的任何反馈。

愉快的部署！

RFC: Linux 部署——Octopus 部署

原文：https://octopus.com/blog/rfc-linux-deployments

目前我们投票最高的 Uservoice 想法是在 Octopus 中增加对 Linux 部署的支持。我们将通过添加对运行 SSH 的服务器的一流支持来实现这一点，这将非常接近今天使用 Octopus 的 Windows 部署的工作方式。

octopenguin

为此，我们将在 Octopus 中引入一个新术语，。无代理的机器将不会运行触手，而是使用不同的通信方法，例如 SSH。

*我们的 RFC 目标是确保我们实现这一特性的方式适合最广泛的客户。

无代理机器简介

在 Octopus 中设置一台新的无代理机器，例如运行 SSH 的 Linux 服务器，其工作方式与添加一台运行触手的新机器相同。

添加无代理机器

通过选择 SSH 而不是监听或轮询作为通信方式来配置无代理机器。

Adding an agentless machine

无代理机器环境

无代理计算机就像普通触须一样出现在“环境”页面上，显示它们的位置和状态(在线/离线)

Environment with an agentless machine

检查无代理机器的运行状况

典型的 Octopus 任务，如健康检查、特别脚本等，可以在所有适当的机器上运行，包括触手和无代理机器(如果两种类型都使用的话)。

Health check an agentless machine

证明

我们的目标是为 SSH 目标机器支持以下认证类型

Authentication Types

密码

Password

无密码的密钥

Key without passphrase

带有密码短语的密钥

Key with passphrase

私钥将作为加密属性存储在 Octopus 数据库中。

网络拓扑结构

不会直接从 Octopus 服务器连接到无代理机器；取而代之的是，一个或多个触角将用于与机器进行出站连接。我们计划在 Octopus 服务器上添加一个隐藏的、运行在低特权进程中的“影子”触手，作为一个方便的默认设置，但是使用特定的触手来处理不同的网络拓扑也是我们正在考虑的一个功能。

无代理机器上的 Octopus 足迹

Octopus 会在进行任何部署之前将压缩包上传到目标机器上，所以我们需要目标机器上的一些本地存储空间，这些存储空间将转到~/.tentacle/。我们还将把包解压到一个默认的位置，就像我们在一个触手机器上所做的一样，例如~/.tentacle/apps/{environment}/{project}/{package}/{version}，并且我们还将支持自定义的安装位置来将文件移动到其他地方。

包装采购

因为执行 SSH 部署需要一个触手机器，所以这些部署的包获取将与今天使用 Octopus 的 Windows 部署略有不同。

触手机器将提取 NuGet 包并创建一个.tar.gz tarball，然后上传到目标机器。

触手机器可以与目标机器位于同一位置，以优化带宽使用，即 Octopus 将包上传到触手，触手再将包发送到目标机器。

部署

包部署步骤将完全通过目标机器上的单个 shell 会话来运行。

我们将检查并确保八达通脚本是最新的
包和支持部署文件将通过 SCP 上传
将执行部署业务流程脚本
如果默认安装目录不存在，将创建该目录
tar 文件将被解压缩
predeploy会跑
如果已经指定了自定义安装目录
- 如果在部署前清除目录的选项为真，我们将清除自定义安装目录
- 将提取的文件复制到自定义目录
deploy会跑
postdeploy将运行
运行保留策略来清理旧部署
删除 Octopus 变量文件(确保敏感变量不会留在服务器上)

部署脚本

主要的部署编排脚本将用 bash 编写，因为这是*nix 发行版中最少的共同点。这个脚本将寻找用户可以创建的predeploy / deploy / postdeploy脚本，如果它们存在，就执行它们。

predeploy / deploy / postdeploy脚本可以用用户偏好的脚本语言编写(但是用户必须确保它安装在运行部署的服务器上)。

predeploy
- 部署前需要运行的任务，例如应用程序所需的配置转换。
deploy
- 实际部署应用程序所需的任务。
postdeploy
- 部署后需要运行的任务。例如，清理应用程序部署期间创建的任何临时文件。

工作目录将是预先部署脚本的默认安装目录，也是部署和后期部署脚本的默认或自定义安装目录。

部署的环境变量

Octopus 拥有比 Linux 环境变量所能支持的更复杂的变量系统和语法。不得不在像Octopus.Action[Install website].Status.Code这样的名字和有效的 POSIX 等价物之间进行映射，这看起来很不舒服，而且容易出错。大型 Octopus 部署也倾向于携带大量的变量，所以我们不愿意将这些任意地放入部署脚本运行的环境中。

与直接设置环境变量不同，部署脚本将可以访问一个tentacle命令，该命令可用于检索它们需要的值。例如，要检索部署使用的自定义安装目录，用户可以像这样调用tentacle命令:

DEST=$(tentacle get Octopus.Action.Package.CustomInstallationDirectory)

这声明了一个环境变量DEST来保存定制安装目录(随后作为$DEST可用于脚本)。

使用"引号可以支持带有嵌入式空格等的值。

尽管我们不太可能在该命令的第一个版本中实现它，但我们正在考虑一些更复杂的特性，如迭代:

for ACTION in $(tentacle get "Octopus.Action[*]")
do
    echo "The status of $ACTION was $(tentacle get "Octopus.Action[$ACTION].Status.Code")"
done

这突出了我们看到的使编写部署脚本变得更加愉快的机会。

`tentacle`命令的其他功能

使用tentacle助手还将提供对在 Windows 机器上使用PowerShellcmdlet 支持的命令的一致访问。

设置输出变量

可以使用tentacle set将输出变量发送到 Octopus 服务器:

tentacle set ActiveUsers 3

或者:

ps -af | tentacle set RunningProcesses

收集工件

可以使用tentacle collect将目标机器上的文件收集为 Octopus 工件:

tentacle collect InstallLog.txt

送入工具

当我们(或其他人)提供助手脚本时，这些脚本本身需要访问变量、路径等等，可以使用tentacle exec调用这些脚本:

tentacle exec xmlconfig Web.config

部署功能

XML 配置转换/appsettings 支持等功能将在目标机器上运行。

支持 Octopus 脚本和可执行文件将是目标机器上默认文件夹结构的一部分，即~/.tentacle/tools/，在这个文件夹中，我们还可以包含使用 Mono 进行支持的助手应用程序。特定于. NET 的约定，如 XML 配置转换/appsettings。

我们还可以包括不同的脚本/可执行选项来支持其他部署功能。

保留策略

部署完成后，我们将应用为项目指定的保留策略，就像我们处理 Windows 部署一样。

用户可以指定保留若干天的部署，或者特定数量的部署。如果指定了其中任何一项，我们将删除不在指定保留策略范围内的任何文件。

系统需求

Linux 发行版的默认配置和可用的软件包可能会有很大的不同。我们的目标是选择一个得到广泛支持的基线，使 Octopus 能够部署到几乎任何当前的 Linux 发行版上。

我们对目标机器的基本假设是:

可以使用 SSH 和 SCP 访问它
用户的登录 shell 是 Bash 4+
tar可用

我们自己计划构建和测试的平台有:

亚马逊 Linux AMI 2014.03
LTS Ubuntu 服务器 12.04

我们将尽最大努力保持发行版无关性，但是如果您能够为您自己的服务器选择这些选项中的一个，您将帮助我们提供有效的测试和支持。

未解决的问题

管理特定于平台的路径
- 当应用程序同时部署到 Windows 和 Linux 服务器时，需要为 Linux 和 Windows 分别指定“自定义安装目录”等路径。我们能让这种体验变得更好吗？
部署脚本的命名
- 预先部署/部署/后期部署，或
- 预先部署/部署/后期部署，或
- pre_deploy/deploy/post_deploy？
默认情况下，我们将上传包和提取包的路径的定制
- 有必要通过 Octopus 进行配置吗，或者像~/.tentacle/apps这样的位置可以根据需要由管理员链接到其他位置吗？
像我们在 PowerShell 中一样写出变量
- 在 PowerShell 中，我们首先使用 DPAPI 对它们进行加密，在 Linux 上有类似的标准加密功能吗？

我们需要你的帮助！

我们真正希望的是，已经在 Octopus 中使用 SSH 的客户，或者希望开始使用 SSH 的客户，能够就我们如何在 Octopus 中实现 SSH 部署的计划给我们提供反馈。

无论是对上面建议的实现的改进，还是如果我们已经做出了假设认为无法工作，那么请在下面的评论中告诉我们。*

征求意见-从 scriptcs 迁移到 dotnet-script - Octopus 部署

原文：https://octopus.com/blog/rfc-migrate-scriptcs-dotnet-script

我们收到了客户反馈和用户声音投票，要求我们更新 Octopus 用来运行 C#脚本的工具，从 scriptcs 到 dotnet-script 。这将:

在部署脚本中解锁较新的 C#语言功能
允许从脚本中直接引用 NuGet 包
不再需要安装 Mono 来在 Linux 部署目标上运行 C#脚本

C#脚本占了我们脚本步骤的大约 5%,所以我们想了解这个变化对我们用户的影响。

如果您在部署过程中使用 C#脚本，并且使用 SSH 和 Mono 部署到 Linux 目标，或者部署到运行早于 2012 年 R2 版的 Windows 版本的 Windows Tentacle 目标，建议的更改可能会影响您。

这篇文章概述了潜在的变化，以及迁移到 dotnet-script 和弃用 scriptcs 的权衡。我们还创建了一个 GitHub 问题，您可以在这里提供反馈，我们可以进一步评估对该功能的需求。

我们建议如何支持 dotnet-script

该意见征询书(RFC)提议移除scriptcs以支持dotnet-script。

为了将软件部署到您的服务器上，我们使用了触手，这是一个轻量级服务，负责与 Octopus 服务器通信，并调用卡拉马里。Calamari 是一个命令行工具，它知道如何执行部署，并且是所有部署操作(包括脚本执行)的宿主进程。我们目前为。NET Framework 4.0.0、4.5.2 和 netcore3.1。根据您的服务器操作系统、体系结构和版本，触手会接收这些 Calamari 版本之一。

历史上，Calamari 要求在 Linux 目标上安装 Mono 来执行scriptcs,因为它是完全编译的。NET 框架。随着跨平台的引入。使用 netcore3.1 Linux 的网络应用程序现在可以本地运行。NET 应用程序消除了 Mono 的复杂性和开销。Linux 目标目前默认接收 netcore3.1 Calamari，除了 Linux SSH 目标，它可以指定在 Mono 上运行脚本。

是基于. NET 的 C#脚本的现代实现。它可以在所有支持的目标上运行。网络应用程序(netcore3.1 及更新版本)。如果我们做出这一更改，这将意味着 C#脚本将只能在支持. NET 的目标上运行。Windows Server 2012 R2 和早期版本仅支持。所以这些目标将失去运行 C#脚本的能力。

影响

增加的功能

特征	scriptcs	点网脚本
C#版本	5	8
移除 Linux 对 Mono 的依赖	❌	✅
获取导入支持	❌	✅
允许未来。NET 5 和 6 支持	❌	✅

拟议方法的好处

所有包含在第 8 版之前的 C#语言特性现在都可以在你的 C#脚本中使用了。

消除对 Mono 执行脚本的依赖使我们与现代的跨平台相结合。NET 功能降低了调用 Mono 和相关问题的复杂性。

来自dotnet-script的 NuGet 导入支持允许在脚本中直接引用 NuGet 包，而不必在脚本包中包含 dll。新方法如下所示。

#r "nuget: RestSharp, 108.0.1"

using RestSharp;

var client = new RestClient("https://pokeapi.co/api/v2/");
var request = new RestRequest("pokemon/ditto");
var response = await client.ExecuteGetAsync(request);
Console.WriteLine(response.Content);

使用 Mono 的 Linux SSH 目标

这种变化的一个代价是，在使用 SSH 和 Mono 的 Linux 部署目标上，C#脚本不再可用。

移民

要针对 SSH linux 目标运行 C#脚本，您需要重新配置 SSH 目标，以使用通过 netcore3.1 运行的独立的 Calamari。

为此，在您的 SSH 目标上选择自包含的 Calamari 目标运行时。使用 Linux 触手的目标将继续像以前一样工作。

Windows Server 2012 R2 版(及更早版本)目标

这一改变的另一个代价是dotnet-script只适用于 netcore3.1 及以上版本。这将使 C#脚本不可用于针对安装在早于 2012 年 R2 版的 Windows 上的 Windows Tentacles 的部署，因为这些版本正在运行。Calamari 的. NET 框架构建。

工作区

我们开发了一个解决方法，因此您可以在受影响的 Windows 目标上继续使用 scriptcs，但是您必须更新您的部署过程。

添加 scriptcs NuGet 包作为引用包。
将 C#脚本的主体复制到下面 PowerShell 模板中的$ScriptContent变量中。

C#脚本中使用的任何参数都需要通过 scriptcs 参数传递，并在 ScriptContent 中使用Env.ScriptArgs[Index]格式引用。下面的模板显示了如何为Octopus.Deployment.Id执行此操作的示例。

$ScriptContent = @"
Console.WriteLine(Env.ScriptArgs[0]);
"@

New-Item -Path . -Name "ScriptFile.csx" -ItemType "file" -Value $ScriptContent

$scriptCs = Join-Path $OctopusParameters["Octopus.Action.Package[scriptcs].ExtractedPath"] "tools/scriptcs.exe"

& $scriptCs ScriptFile.csx -- $OctopusParameters["Octopus.Deployment.Id"]

这个什么时候发布？

我们仍在评估这一变化可能会影响多少用户。在我们清楚了解我们将影响谁以及他们需要采取什么行动之前，我们不会做出或发布提议的变更。

我们需要您的反馈

我们仍在考虑这一变更，因此现在正是利用您的反馈来帮助制定这一提案的大好时机。我们制作了一期 GitHub 来捕捉讨论。

具体来说，我们想知道:

Linux SSH 目标或早于 2012 R2 的 Windows 版本的限制会对您产生影响吗？
如果是，您能预见到任何可能阻止您升级这些部署目标或使用替代脚本语言的挑战吗？
更新的语言特性，更容易的 NuGet 包引用，以及在移除 Mono 时增加的可靠性证明了这些改变的合理性吗？

您的反馈将帮助我们提供最佳解决方案。

结论

总之，从scriptcs到dotnet-script的迁移将导致以下变化:

运行 Mono 的 Linux SSH 目标不赞成使用 C#脚本
对于在早于 2012 年 R2 版的版本上运行的 Windows 部署目标，不推荐使用 C#脚本
增加对 C# 5 到 C# 8 语言特性的支持
脚本中 NuGet 包的直接导入
删除了在 Linux 目标上运行 C#脚本的 Mono 要求

感谢您阅读本 RFC。非常感谢您的任何反馈。

愉快的部署！

RFC -多租户- Take 2 - Octopus 部署

原文：https://octopus.com/blog/rfc-multitenancy-take-two

更新:多租户部署将作为 Octopus Deploy 3.4 的一部分推出，Beta 2 已经发布！参见 3.4 Beta 2 博客文章了解最新信息。

这是对原始 RFC 的后续 RFC，旨在更好地支持 Octopus Deploy 中的多租户部署。

Octopus Deploy 旨在部署软件版本，并通过一系列具有可重复结果的环境来推广它们。Octopus 很好地模拟了这种典型的场景，但是它不适合多租户应用程序。

我们之前的提议探索了标记环境的概念，以使处理许多环境更容易。这个 RFC 将探索如果我们实现了租户一级概念而不是环境假装是租户，Octopus Deploy 会如何表现。

概述

这是一个很大的 RFC，但也是一个很大的特性集！我们鼓励您花时间了解我们的提议，以及它将如何影响您的情况，并帮助我们把握方向！

为什么是另一个 RFC？

参与 RFC 过程最棒的一点是，你真的可以对 Octopus Deploy 的发展方向产生重大影响。有几个引人注目的特点促使我们起草了另一份 RFC:

租户感知生命周期，您希望确保在将某个版本部署到Tenant 1的Production环境之前，已经将该版本部署到Tenant 1的Staging环境，对所有租户也是如此。
更容易防泄漏的，你要确保你不会意外地将Tenant 1的发布部署到属于Tenant 2的环境中。
以租户为中心的工作流您希望从租户的角度管理租户及其项目、环境、变量和部署。

我们可以使用环境标签来构建这些特性，但是我们很快发现实现的复杂性在增加，更不用说试图描述如何配置 Octopus 来实现这些引人注目的特性了。将租户视为一级概念使得这些特性更容易实现，也更容易解释。

别忘了，Octopus Deploy 是为少数环境设计的。引入租户意味着我们可以引入一些功能，使处理大量租户变得更容易，而可以重新管理少量环境！

与原始 RFC 的差异？

你可能会注意到这两种设计有很多相似之处。如果你还没有阅读原始 RFC，我们强烈建议你阅读。在大多数情况下，你可以简单地将任何环境——假装是租户替换为租户——一级概念:

核心问题是多租户是痛苦的没有改变
通过使用租户标签而不是环境标签将租户视为租户组，您仍然可以更容易地管理大量租户
- 为了使使用标签更容易，你可以用颜色来标记你的标签
生命周期将恢复到今天的工作方式，明确地将环境添加到阶段中，但是生命周期可以成为租户感知的，以确保您在投入生产之前安全地将版本提升到每个租户的暂存环境中(例如)
仪表板仍然可以以类似的方式进行聚合，但是我们可以让它更像一个数据透视表，您可以从租户、版本或环境中选择两个选项来定制您的视图
您仍然可以定义变量模板，但是不是在环境上定义值——假装是租户,而是在租户本身上定义它们
变量检查器仍然可以像我们最初提议的那样工作
您可以显式地将租户映射到项目，而不是通过生命周期隐式地将租户映射到项目

您可能还会注意到一些额外的引人注目的功能，用于通过 Octopus Deploy 管理多租户部署，以及一些令人愉快的增强功能，这些增强功能与租户即一流概念很有意义。

更困难的一件事是迁移过程。有了每租户环境，就不需要迁移了——您只需开始额外使用新功能。对于租户即第一类概念，您需要将某些环境转换为租户，并带来某些变量集/变量。

我们建议如何处理 Octopus 部署中的多租户问题

作为一流概念的模型租户

我们建议将租户建模为一级概念，而不是将环境或项目纠结成一个形状来实现多租户部署。您可以:

创建和管理租户
为每个租户指定应该将哪些项目部署到哪些环境中
管理特定于每个租户的变量
定义租户感知的生命周期

像往常一样，我们希望多租户是一个附加的功能集:如果你不需要多租户，你的八达通体验将与今天一样除了一些将使每个人受益的功能。

Configuration - Enable Tenants

一旦您启用了多租户部署，该界面可以向主菜单栏添加一个租户选项卡，您可以在这里管理您的租户。

Tenants

您可以给每个租户一个名称和徽标，以便在列出租户时更容易区分。您还可以为每个租户明确定义将哪些项目部署到哪些环境中。在这种情况下，将把Synergy和Mojo项目部署到Staging和Production环境中。

这是我们希望得到反馈的特定区域:这种链接应该有多精细？如果租户有一个试运行和生产环境，这是否适用于所有项目？或者您希望为每个项目选择特定的环境？

Tenant Settings

当你有很多租户时(这是一个很大的问题),和他们单独工作是很痛苦的。我们(仍然)建议引入标签来支持这些类型的场景。您可能已经注意到，我们已经为上面的Customer-2定义了几个标签，在本例中，作为一个具有已定义模块的VIP租户，托管在Shared 2托管组/集群/服务器场中。

首先，您可以通过在库中创建标签集来确定您想要使哪些标签可用，并为每个标签集创建有效的标签列表。创建哪个标签集和标签完全由您决定。在本例中，我们创建了几个标记集，每个标记集代表我们希望在整个 Octopus 部署中利用的不同属性。

Library - Tag Sets

请注意，这些标签目前意义不大——请继续阅读，看看如何利用这些不同的属性来实现一些引人注目的场景，尤其是当您的标签集代表正交关注点时。

还要注意标签是一个附加特性:如果你没有定义任何标签集，Octopus 不会提示你与标签有关的任何事情。

如果您有很多租户，那么如果您能够管理哪些标签被批量应用到租户，事情会简单得多。这将使您能够添加一个新的标记集，并非常快速地为您的所有租户添加适当的标记。

Tenants - Bulk Tag Edit

一旦您配置了一些标签集并标记了一些租户，Octopus 就可以按标签集聚集租户页面。您可以按名称或标签搜索租户，或者直接钻取其中一个标签并显示匹配的租户。

Tenants - Rollup

改进的仪表板

将租户作为一级概念，Octopus 可以使仪表板更像一个数据透视表，您可以从项目、环境、租户/标签集中进行选择。考虑一个项目/环境(目前的默认设置)的例子，Octopus 可以聚集关于每个组的最重要的信息，包括租户的数量、组的整体状态(如果需要的话，可以用指示器来引起您的注意)、已经部署到所包含的租户的版本范围，以及向所包含的租户推出最新版本的进度。

Dashboard - By Environment

有些人可能对项目/客户类型或其他集合更感兴趣。

Dashboard - By Customer Type

类似地，项目概述可以按环境或租户/标签集分组，以显示今天的发布历史。

Project Overview - By Environment

Project Overview - By Customer Type

部署到租户

Octopus 还可以使生命周期租户感知阻止您在Customer-1将项目部署到Production环境，直到您在Customer-1将项目部署到Staging环境。

Deploying to Tenants - Tenant-aware Lifecycle

生命周期可以像现在一样工作，除了它在多个环境中看到一个租户:在这种情况下，生命周期可以确保通过每个租户的环境链提升一个版本。

一旦您创建了一些租户，您就可以选择一个租户和一个环境来部署一个版本。您还可以选择多个租户和环境(受生命周期限制)来并行运行部署(就像您现在可以并行部署到多个环境一样)。

Deploying to Tenants

Octopus 还可以提供一个专门设计的屏幕，用于在所有租户之间滚动部署。请注意，我们现在可以垂直排列租户(不再需要水平滚动),并可能按名称或标签过滤租户。Octopus 可以显示每个租户最近的发布历史，以及 Deploy 按钮，这样你就可以在同一个屏幕上升级所有的租户。

Deploying to Tenants - Upgrade

按标签选择租户

在章鱼世界的某些地方，识别租户是有意义的。考虑将部署授权给特定的部署目标或帐户，或者将变量和步骤限定到特定的租户。Octopus 不局限于识别特定的租户(可能有数百个)，而是允许您使用标签组合来选择一组租户。Octopus 可以在运行时解析这个租户查询，以提供匹配租户的时间点列表。

Selecting Tenants

虽然在许多情况下使用这些查询来引用租户可能更方便，但是根据每种情况的复杂性，这可能会变得更加混乱。为了帮助驯服额外的复杂性，我们可以提供一个设计视图，类似于我们为设计通道的版本规则所做的。

Selecting Tenants - Designer

部署目标和客户

考虑这些与多租户部署相关的场景:

您可以为每个租户提供专用的机器，并且您不希望将部署或敏感变量/数据泄露给错误的租户的机器
您有一个客户正在提供他们自己的 Azure 订阅，您希望确保其他租户的部署不会泄漏到该订阅中
您希望实现专用/共享托管模型，其中一些租户将在共享池/群集/场中托管，而其他租户将在专用池/群集/场中托管

Octopus 可以帮助您实现这些目标，它允许您通过名称和/或标签来确定哪些租户应该被允许部署到特定的目标和帐户。

这是在共享主机集群中设置一个节点的示例。Octopus 可以自动将这个部署目标包括在Synergy-Web-Server环境中，为标记为Hosting: Shared 1的租户部署Synergy-Web-Server。此外，可能会阻止不符合此规范的部署包含此部署目标。

Deployment Targets

这是一个限制哪些部署有权使用帐户的示例。Octopus 可以授权Customer-3到Production环境的部署使用Customer-3 Synergy Production Subscription帐户，拒绝不符合该规范的部署。

Accounts

部署目标和向后兼容性

我们希望保持向后兼容性，并允许您选择加入多租户部署。我们认为区分普通项目和多租户项目(映射到至少一个租户的项目)会有所帮助。考虑我们如何计算部署中应该涉及哪些部署目标:

当部署一个普通项目时:查找所有具有匹配角色的部署目标，忽略由部署目标指定的任何租户范围。这相当于我们今天所做的。
为特定租户部署多租户项目时:查找所有角色匹配的部署目标；其中租户与部署目标指定的租户范围相匹配。

这意味着没有指定租户范围的部署目标将不可用于多租户项目的部署。这样做的另一个好处是，您可以提前构建基础架构，并在需要时安全地向基础架构添加租户。

范围变量和步骤

如果可以基于标记来确定范围，那么确定变量值的范围会更方便。在本例中，当我们使用Telephony模块为任何VIP或Early adopter租户部署到Production环境时，将使用变量值。

Scoping Variables - By Tag

类似地，确定部署步骤的范围会变得更加简单。在这个例子中，我们已经基于几个不同的标签定制了我们的部署过程。首先，我们将把探索模块部署到标有Module: Exploration的租户。当标记为Customer type: VIP的 VIP 客户升级后，我们也会通知优先支持团队。一旦我们的租户成功完成生产部署，我们还会向他们发送定制的电子邮件通知。

Scoping Steps - By Tag

管理特定于租户的变量

下一个难题是管理特定于每个租户的变量。为了解决这个问题，我们计划让您直接向租户添加变量，但是在我们开始之前，您如何知道哪些变量需要添加到这些租户呢？想象一下，如果项目可以为每个不同的租户定义所需的变量，然后每个租户可以提示您它需要的变量。我们提议引入变量模板的概念。

项目变量模板

变量模板可以允许项目定义成功部署所需的变量。我们认为变量模板作为复合部分将更易于管理，就像今天的项目变量和库变量集一样。每个项目可以定义在租户之间变化的变量集，可选地包括库中的公共变量模板。在本例中，项目定义了两个特定的变量模板，并包含了库中的两个变量集模板。

Project - Variable Template

这些变量模板中的每一个都可以以类似于为步骤模板定义参数的方式进行定义，其中您可以提供变量名、标签、帮助文本、默认值和输入控制类型，如单行/多行文本框、敏感/密码框、复选框或下拉菜单。

租户变量集

如今，许多使用 Octopus 进行多租户部署的客户将为每个租户创建一个库变量集。我们建议将变量作为租户设置的一部分。通过这种方式，您可以将所有特定于租户的变量指定为租户本身的一部分，而 Octopus 会自动地、隐式地将这些变量限定到该租户。当你为一个特定的租户部署一个版本时，Octopus 会自动合并来自该租户的变量集。

在本例中，Customer-2需要为Synergy和Mojo项目提供变量，根据两个项目的变量模板，我们需要:

TenantAlias来自标准租户详细信息库变量集模板
StorageAccountUri从普通存储账户库变量设置模板
来自协同项目的SynergyDatabase和SynergyApiKey
MojoDatabase来自 Mojo 项目

Tenant Settings - Variables

在这种情况下，我们没有为MojoDatabase变量定义一个值，而是被提示设置该值。

变量检查器

如今，Octopus Deploy 中的变量一般来自项目、库变量集或 step 模板。添加租户作为变量的来源将简化管理变量的某些方面，但是诊断变量的问题可能会变得更加困难。我们建议添加一个变量检查器，这将使它更容易获得一个项目中所有变量的概览，它们的来源，以及是否有任何问题。

Variable Inspector

正在打包

有了这些功能，我们希望与管理大规模多租户部署相关的痛苦将得到显著缓解。考虑创建新租户会涉及哪些内容:

创建名为CustomerA的新租户
- 输入提示变量
将最新版本部署到CustomerA的环境中
利润！

留下评论

你怎么想呢?这是您(再次)大胆发言的机会，可以帮助我们针对您的情况构建合适的功能。

这一次，我们想提出一些具体的问题:

与之前的提案(环境标签)相比，您觉得这个提案怎么样？
您能描述一下您希望如何将租户与项目/环境联系起来以适应您的情况吗？是否要选择一个项目并指定该项目中的租户应该可以使用的环境？或者，不管项目如何，每个租户都有相同的环境吗？也许是别的什么？
您认为有什么令人信服的理由可以让您通过名称将项目或库变量集中的变量限定到特定的租户，或者我们应该强制您指定特定租户的值？
我们遗漏了什么特别的特征吗？

RFC:多租户- Octopus 部署

原文：https://octopus.com/blog/rfc-multitenancy

更新:多租户部署将作为 Octopus Deploy 3.4 的一部分推出，Beta 2 已经发布！参见 3.4 Beta 2 博客文章了解最新信息。

更新:根据一些令人信服的客户反馈，我们重新审视了这份 RFC！阅读更新的 RFC，提议将租户作为一级概念...

Octopus Deploy 旨在部署软件版本，并通过一系列具有可重复结果的环境来推广它们。Octopus 很好地模拟了这种典型的场景，但是它不适合多租户应用程序。让我们考虑一下在使用 Octopus Deploy 的多租户部署指南中讨论的例子...

为大公司客户制作人力资源软件。他们将软件作为 SaaS 产品提供给客户，并为客户托管网站和相关服务。由于应用程序的架构，对于每个客户，他们部署不同的 SQL 数据库、ASP.NET 网站的副本和 Windows 服务的副本。

这个场景中的关键问题是相同的组件需要部署多次，每个最终客户一个，这与 Octopus 通常设计处理的场景不同。

为了管理今天的这种情况，我们提出三条建议:

遗憾的是，Octopus 中的单位租户环境和单位租户项目的可扩展性都很差，这就是我们想要解决的问题，从这个 RFC 开始！

在本 RFC 中，我们将主要关注每租户环境，因为这是目前最流行的方法

概述

这是一个很大的 RFC，但也是一个很大的特性集！我们鼓励您花时间了解我们的提议，以及它将如何影响您的情况，并帮助我们把握方向！

多租户很痛苦

在帮助我们的许多客户处理 Octopus 中的多租户部署后，我们看到了以下主题:

我们错过了什么重要的东西吗？留言评论！

管理大量环境

Octopus 部署引擎和 API 可以处理数千种环境。我们客户的主要抱怨是，管理多个环境的用户体验很差。

环境页面本身的伸缩性不好。加载速度慢，没有过滤/搜索功能，需要大量的垂直滚动，并且当许多租户托管在共享基础架构上时，可能会有大量重复的信息。
仪表板和项目概述页面的伸缩性不好。加载时间慢，没有过滤/搜索，没有办法聚合状态，它们水平溢出，水平滚动很难。
每次添加新环境时，您都需要更新大量断开连接的资源:
- 应该包括新环境的生命周期阶段
- 为新环境托管软件的部署目标/机器
- 支持部署到新环境的帐户
- 应该适用于新环境的步骤
- 应该限定新环境范围的变量

添加新租户

根据我们对每租户环境的建议，您需要:

为名为Production-CustomerA的租户创建新环境
- 将Production-CustomerA环境添加到所有必需的生命周期中
- 将Production-CustomerA环境添加到所有必需的帐户中
- 将Production-CustomerA环境添加到所有必需的部署目标中
创建一个名为Production-CustomerA的新库变量集，以包含特定于新租户的变量
- 您需要了解新租户所需的全套变量
- 手动输入每个变量名和值，注意不要出错！
- 将所有这些变量单独纳入Production-CustomerA环境
对于每个必需的项目:
- 将Production-CustomerA变量集添加到所有必需的项目中
- 可选地将部署步骤限定在Production-CustomerA环境中
- 将最新版本部署到Production-CustomerA环境中
利润！

如果最终客户需要一个测试和批准发布到他们的生产环境的临时环境，那么您必须为Staging-CustomerA重复所有这些。

我们的许多客户通过 Octopus API 自动完成了创建新租户的过程，但这并没有减轻租户长期持续管理带来的痛苦。

没有管理客户的单一场所

当您管理一个具有一个或多个环境的客户时，您经常需要在 Octopus 用户界面中来回切换，而在与同一客户相关的信息片段之间导航很少或没有帮助。为环境、变量集、帐户和专用机器使用命名约定确实是一个好主意，但是它只能帮到你这么多。

库变量集是全局的

考虑这样一种情况，某些重要的客户应该只由经过挑选的少数人来管理。这可以通过为环境设置权限并确保库变量集中的每个变量都正确地作用于环境来实现。然而，库变量集本身并不连接到环境——它被认为是一个全局资源。

我们建议对 Octopus 部署中的多租户做些什么

我们建议在 Octopus 部署中引入一系列新功能。我们相信，除了管理多租户部署的客户之外，这些功能还将惠及我们的绝大多数客户。

有话要说？留下评论！

使用标签分组管理环境

到目前为止，我们讨论的最常见的问题之一是处理大量的环境，尤其是您不能在仪表板上聚合环境，也不能将环境作为组来处理。我们建议引入标签来支持这些类型的场景。

首先，您将通过在库中创建标签集来确定您想要使哪些标签可用，其中包含每个标签集的有效标签列表。创建哪个标签集和标签完全由您决定。在本例中，我们创建了几个标记集，每个标记集代表我们希望在整个 Octopus 部署中利用的不同属性。

Library - Tag Sets

请注意，这些标签目前意义不大——请继续阅读，了解如何利用这些不同的属性来实现一些引人注目的场景。

Octopus Deploy 现在可以在配置您的环境时提供这些标记集，并且您可以配置您想要应用于每个环境的实际标记。看看下面，你会注意到标签集已经按照库中的顺序进行了排序。在本例中，我们将Production-Tenant-Mobil环境标记为属于Production阶段，托管在Shared 2托管组中，具有选定的模块，并作为VIP客户。

Environment Settings - Tags

如果您有许多环境，那么如果您能够管理哪些标签被批量应用到环境中，事情会容易得多。这将使您能够添加新的标记集，并快速标记您的所有环境。

Environments - Bulk Tag Edit

改善环境页面

一旦你配置了一些标签集并标记了一些环境，Octopus 就可以通过标签集聚集环境页面。您可以直接钻取其中一个标记，并显示匹配的环境。

Environments - Rollup

改进仪表板

在配置您的标记和环境之后，您可以将仪表板配置为按其中一个标记进行分组。Octopus 可以聚集关于该组的最重要的信息，包括环境的数量、该组的整体状态(如果必要的话，用指示器来引起您的注意)、已经部署到所包含的环境中的版本的范围、以及向所包含的环境推出最新版本的进度。

在这个例子中，我们通过阶段标签对环境进行分组。

Dashboard - By Phase

有些人可能对客户类型或其他聚合更感兴趣。

Dashboard - By Customer Type

类似地，项目概述可以按标签分组，显示今天的发布历史。

Project Overview - By Phase

Project Overview - By Customer Type

单击其中一个组可以深入到该组，并显示该组中环境的更多详细信息。在本例中，我们点击了 3.2.6-3.2.7 以查看该组的详细信息。请注意，我们现在可以垂直排列环境(不再水平滚动),并可能通过名称或其他标签过滤环境。我们还可以显示每个环境的发布历史，以及Deploy按钮，这样您就可以从同一个屏幕升级所有的生产租户。

Project Overview - Details - Phase - Production

通过标签引用环境

当您现在想在 Octopus Deploy 中引用一个环境时，您需要通过环境名显式地引用它。在您创建了一些标签集之后，您可以开始通过标签引用环境。考虑在标记集之前将部署目标配置为多个环境的共享主机的例子。

Deployment Targets - By Name

有了标记，您可以简化这个部署目标，只需配置一次，并允许 Octopus 在运行时动态解析应用哪些环境。

Deployment Targets - By Tag

虽然通过标签引用环境在很多方面会更方便，但根据每种情况的复杂性，它可能会变得更混乱。为了帮助驯服额外的复杂性，我们可以提供一个设计视图，类似于我们为设计通道的版本规则所做的。

Select Environments - Designer

管理生命周期、部署目标和账户

如果您可以通过标签引用环境，那么在生命周期、部署目标和帐户中管理环境将变得更加简洁和强大。例如，每当您添加一个新的环境时，Octopus 可以根据其标签自动将该环境包含在正确的部署目标、生命周期阶段和帐户中。我们刚刚看到了一个部署目标的示例。在这个例子中，我们定义了一个简单的生命周期，其中每个阶段的环境都由Phase: *标签驱动。

Lifecycle - By Tag

在本例中，所有标有Phase: Production的环境都将被授权使用Synergy Production Subscription账户。

Accounts - By Tag

范围变量和步骤

如果可以基于标记来确定范围，那么确定变量值的范围会更方便。在本例中，当我们部署到由Phase: Production标记定义的任何生产租户时，将使用变量值。

Scoping Variables - By Tag

类似地，确定部署步骤的范围会变得更加简单。在这个例子中，我们已经基于几个不同的标签定制了我们的部署过程。首先，我们将把探索模块部署给标记为Module: Exploration的租户。当标记为Customer type: VIP的 VIP 客户升级后，我们还会通知优先支持团队。一旦我们的生产租户成功完成部署，我们还将向他们发送定制的电子邮件通知，标签为Phase: Production。

Scoping Steps - By Tag

管理特定于租户的变量

下一个难题是管理特定于每个租户的变量。为了解决这个问题，我们计划让您直接将变量添加到环境中，但是在我们开始之前，您如何知道哪些变量需要添加到这些环境中呢？想象一下，如果项目可以定义每个不同环境所需的变量，然后每个环境可以提示您它所需的变量。我们提议引入变量模板的概念。

可变模板

变量模板可以允许项目定义成功部署所需的变量。我们认为变量模板作为复合部分将更易于管理，就像今天的项目变量和库变量集一样。每个项目都可以定义一组在不同环境之间变化的变量，可选地包括库中的公共变量模板。在本例中，项目定义了两个特定的变量模板，并包含了库中的两个变量集模板。

Project - Variable Set Template

环境变量集

如今，许多使用 Octopus 进行多租户部署的客户将为每个租户创建一个库变量集。我们建议将变量作为环境设置的一部分。这样，您可以将所有特定于环境的变量指定为环境本身的一部分，而 Octopus 会自动地、隐式地将这些变量限定在该环境中。当您将一个版本部署到一个特定的环境中时，Octopus 会自动合并该环境中的变量集。

项目已经通过生命周期的方式映射到环境中，因此很自然地假设环境将使用通过生命周期链接到的任何项目中的可变模板。

Mapping Projects to Environments

在这个例子中，Synergy 项目将被部署到这个环境中，基于 Synergy 中定义的可变模板，我们需要:

CustomerName和TenantAlias来自Standard tenant details库变量集模板
StorageAccountUri来自Common storage account库变量集模板
Synergy项目中的SynergyDatabase和SynergyApiKey
MojoDatabase来自Mojo项目

Environment Settings - Variables

在这种情况下，我们没有为MojoDatabase变量定义一个值，而是被提示设置该值。

变量检查器

如今，Octopus Deploy 中的变量一般来自项目、库变量集或 step 模板。添加环境作为变量的来源将简化管理变量的某些方面，但是诊断变量的问题可能会变得更加困难。我们建议添加一个变量检查器，这将使它更容易获得一个项目中所有变量的概览，它们的来源，以及是否有任何问题。

Variable Inspector

不仅仅是多租户

如今，在 Octopus Deploy 中管理大规模多租户部署显然是一件痛苦的事情。我们相信 RFC 中提出的功能将使我们的大多数客户受益。考虑这些场景:

类似于多租户的其他使用案例:
- 管理公共云中的多区域部署，您将部署到几个地理区域，但将它们都视为生产。
- 有多个测试工程师的团队，每个人都有自己的测试环境。
- 动态试运行/退役特性分支环境，用于在正常的开发/测试/生产生命周期之前测试新特性。
开始一个新项目，您配置开发和测试环境。几周后，您希望添加试运行和生产环境，但是忘记了需要为这些新环境添加哪些新变量。
出于各种原因，简单地管理大量的环境和变量。
出于内聚/权威/安全的原因，希望将特定于环境的变量直接保存在环境中。
想给你的项目变量添加更多的结构。

收尾

有了这些功能，我们希望与管理大规模多租户部署相关的痛苦将得到显著缓解。考虑创建新租户会涉及哪些内容:

为名为Production-CustomerA的租户创建新环境
- 根据需要添加标签
- 输入提示变量
将最新版本部署到Production-CustomerA环境中
利润！

留下评论

你怎么想呢?这是您畅所欲言并帮助我们为您的环境构建合适功能的机会。

RFC:删除快照- Octopus 部署

原文：https://octopus.com/blog/rfc-removing-snapshots

在任何部署流程中，以下两者之间都存在紧张关系:

对部署流程/配置进行更改的需求；而且，
希望候选版本的部署在不同的环境中保持一致

例如，假设作为部署过程的一部分，您需要为 IIS 网站配置一个特殊设置。您已经编写了一些 PowerShell 来做到这一点。您将发布(让我们称之为“发布 1.1”)部署到一个测试环境中，一旦合适的人签字同意，这个发布就可以投入生产了。

在等待的时候，您决定对 PowerShell 脚本进行一些调整；也许你找到了一种新的方法，用更少的代码来改变 IIS。您发布了一个新的版本(“版本 1.2”)，并将其部署到测试中。它看起来工作正常，但是你不能 100%确定——输出并不完全是你所期望的。

突然，您获得了将“版本 1.1”部署到生产环境的许可。您希望它运行您刚刚开发的实验性 PowerShell，还是运行在部署 1.1 版进行测试时运行的经过反复测试的旧 PowerShell？

快照

2012 年，Octopus 推出了快照作为这个问题的解决方案。创建“1.1 版”时，我们会拍摄以下内容的快照:

组成部署过程的部署步骤，以及
构成项目配置的变量

Snapshots for releases

这样，您可以随心所欲地进行更改，并且确信旧版本不会引入任何意外的更改；测试中发生的事情就是生产中发生的事情。

然而，当我们第一次介绍快照时，它并不是我所希望的银弹。他们在不同的场景下崩溃了:

假设您以前从未部署到生产环境中(一个处于起步阶段的项目)；现在，在投入生产之前，你意识到需要一些额外的步骤或变量。如果我们只依赖快照，就没有办法添加这些内容。
您的 PayPal 密钥发生变化，或者数据库服务器被重新定位。旧版本仍然使用旧的 API 密钥和旧的数据库服务器；那毫无意义。

为了解决这些问题，我们添加了一个按钮，将项目的最新变量导入到一个版本中——有效地覆盖了旧的快照。然而，它受到变量的限制。如果您添加了一个新的部署步骤，您仍然需要删除旧的发布并创建一个新的。

然而，快照的最大限制是它们是线性的。没有办法“分支”快照——比方说，保留一个“1.x”版本的部署流程，和一个“2.x”版本。

频道

2015 年末，我们增加了渠道。通道最初是为了帮助我们支持分支，但是我们很快发现了它们的许多其他用途:

修补程序版本，其中跳过了一些步骤和环境
发展部署设计:您可以在每个通道的基础上完全添加或更改步骤
处理功能分支和新的发布流
暂时禁用步骤或变量(只需将它们分配给不使用的通道)

需要快照吗？

在讨论有关快照的计划以及如何在我们即将发布的版本中应用于多租户时，我们意识到 channels 实际上解决了许多快照最初旨在解决的问题，只是更好。

在上面的例子中,“经过尝试和测试的”PowerShell 步骤可能属于一个“主”通道，而“新的和改进的”PowerShell 步骤可能属于一个“实验”通道。1.1 版是在“主”频道上发布，而 1.2 版是在“实验”频道上发布。您可以不断迭代两者的新版本，并确定哪一个将在每个版本中运行。

在这方面，通道比快照更好，因为您可以细化它们的应用方式。在所有的变量中，您可能只关心其中一些变量的“快照”行为。当然，API 键和数据库服务器总是使用“最新”的变量。但是您可能希望保留一小部分(例如，1.x 代码和 2.x 代码的不同文件路径)。您可以在没有快照的情况下，将这些变量值限定到一个通道来实现此行为。

快照行为也很烦人。如果您通过部署到一个测试环境来试验一个新的脚本，您必须不断地创建新的版本来测试每一个变化。使用“实验”频道而不使用快照会容易得多。您甚至可以配置一个生命周期，这样您的“实验性”渠道版本就永远不会进入生产阶段——它实在是太强大了。

这指向一个结论:快照似乎过时了。我就是想不出快照能处理频道不能处理的任何场景。

移除快照

在 3.4 中，我们考虑完全删除快照。这样做的原因是:

快照可以做的任何事情，渠道都可以做得更好
对于一个产品来说，用两种方法来实现相同的目标是浪费
快照使得对部署过程的改变的实验变得困难
它们让新用户感到困惑；频道是一个用户只有在寻找的时候才会看到的特性，否则就不会出现
如果我们今天从头开始，我们只会做频道，而不会做快照
快照使多租户等功能变得难以推理(快照中是否包含租户变量)？

如果我们真的移除它们，我们需要考虑:

升级过程/兼容性看起来像什么(因为人们目前依赖于行为)
如果人们忘记测试通道上的更改，我们如何帮助他们进行“回滚”——改进的源代码控制集成似乎是一个更好的方法。
教育。快照至少很容易解释；我们需要找到一种简单的方法来解释如何使用通道来实现相同的场景。

你怎么想呢?你愿意看到快照的背面吗？您能想到快照支持而渠道不支持的场景吗？

RFC:只在根目录调用 PowerShell 脚本——Octopus Deploy

原文：https://octopus.com/blog/rfc-root-most-scripts

想象一个像这样的包:

NuGet package with multiple deployment scripts

在部署期间，Octopus Deploy 将在部署期间调用所有四个Deploy.ps1脚本。对于首先调用哪个脚本，没有确定的顺序。对于一些人来说，这导致了一些问题——他们的包中可能有一个有不同含义的Deploy.ps1脚本(它不是为 Octopus 准备的)。

我们正在考虑做出一些改变，但我不清楚最好的前进方式是什么。我需要你的帮助来决定！请记住，我们的目标之一是让东西开箱即用。答案是不是加一堆复选框让它可选【T2:-)

选项 1:不要改变它

这是一个简单的选择——调用我们找到的任何文件。我们可以根据深度(脚本有多“根”)排序，然后按字母顺序排序，使其更具确定性。

选项 2:只调用根脚本

更新:我们决定从 Octopus 2.4 开始这样做

如果根 Deploy.ps1 脚本存在，我们将调用它，否则不调用任何东西。这意味着你必须将你的脚本放在包的根目录下(而不是子文件夹中),以便 Octopus 调用它们。

选项 3:调用最根的脚本

调用离根最近的脚本。如果根目录下没有脚本，那么我们将遍历子目录并调用找到的第一个脚本。

包装长这样怎么办？

Root most

在这种情况下，我们应该 a)两个都调用，b)都不调用，还是 c)调用我们找到的第一个？

征求意见- ECS 与 Octopus 集成里程碑二- Octopus 部署

原文：https://octopus.com/blog/rfc-second-ecs-integration-with-octopus

Octopus 中的第一个亚马逊弹性容器服务(ECS)集成里程碑正在开发中，它将提供一个新的步骤和目标，使您可以轻松地通过 Octopus 部署第一个 ECS 服务。

第一个里程碑将通过 CloudFormation 为您创建和管理 ECS 服务和任务定义。这使得开发人员和管理员不必为自己编写冗长的模板。

然而，我们早期从部署到 ECS 的团队那里收到的一个一致的反馈是，他们已经成功地管理了现有的 ECS 资源，通过手动创建的服务或通过 Terraform 等工具。挑战不是创建服务，而是用新的映像作为 CI/CD 管道的一部分来更新它们。

对于 ECS 集成的第二个里程碑，我们提议采取一个新的步骤来更新现有的 ECS 服务，而不获取它们的所有权。这为已经建立了 ECS 集群的团队提供了一个机会，在保留对资源创建方式的控制的同时，协调新映像版本到其服务的部署。

我们建议如何支持已建立的 ECS 集群

这个征求意见稿(RFC)提出了一个新的步骤，与第一个里程碑引入的 ECS 目标相集成。该步骤使用新的图像标签创建新的任务定义修订版，并使用任务定义修订版更新服务。

这个里程碑还通过展示链接现有负载平衡器的能力，增强了里程碑 1 中交付的步骤。

新的步骤

新的步骤支持人们向现有的任务定义和服务部署新的映像。

步骤:

定义任务定义及其关联服务的名称。
定义要在相关任务定义中更新的容器数量:

现有任务定义和服务的 ECS 部署将执行以下流程:

基于最新修订创建新的任务定义修订。
任务定义修订中的图像版本与步骤中的匹配容器定义一起更新。
然后使用新的任务定义修订版更新服务。

链接到负载平衡器

部署到 ECS 的大多数服务都暴露于网络流量，这意味着它们接收来自负载平衡器的流量。

里程碑二更新了里程碑一中引入的将服务链接到现有负载平衡器的步骤:

拟议方法的好处

这一新步骤将允许已建立 ECS 群集的客户通过 Octopus 协调映像部署，同时仍然保留对任何现有基础架构脚本的控制。

Octopus 在发布创建时选择图像版本，以及所有与频道和版本规则相关的功能。Octopus 随后会更新将新映像部署到 ECS 所需的最低设置，而不会尝试拥有任务定义或服务。

这将您的软件发布管理从您的基础设施发布管理中分离出来。

第二个 ECS 里程碑的范围是什么？

第二个里程碑主要是用已建立的 ECS 集群支持团队。它还包括对现有步骤的一些小的更新。

来自里程碑一的限制仍然适用于里程碑二:

将最初的步骤限制为只部署到 Fargate(但是，在这个里程碑中提出的新步骤将更新任何现有的服务和任务定义，无论是 EC2 还是 Fargate)。
仅支持滚动部署，不支持集成 CodeDeploy 蓝/绿部署。
不提供构建新负载平衡器的能力(仅选择现有的一个)。
排除自动缩放设置。
排除应用网格和 FireLens 设置。
排除服务自动发现设置。
仅创建或更新服务，不支持任务或计划任务。

这个什么时候发布？

里程碑二的工作计划在里程碑一完成后开始。我们还没有发布日期，所以请关注博客以获得进一步的公告。

我们需要您的反馈

我们仍在计划第二个里程碑，所以现在是利用您的反馈来帮助塑造这一新功能的大好时机。我们制作了一期 GitHub 来捕捉讨论。

具体来说，我们想知道:

更新现有任务定义和服务的能力是否支持您现有的 ECS 群集？
您希望 Octopus 能为您解决哪些进一步的 ECS 部署挑战？
您能否预见到可能会阻止您对现有 ECS 群集使用建议步骤的任何挑战？

这些反馈将有助于我们提供最佳解决方案。

结论

总之，我们提议的 ECS 支持的第二个里程碑包括:

将映像部署到现有任务定义和服务的新步骤。
在里程碑一中介绍的步骤中链接现有负载平衡器的能力。

感谢你阅读这篇文章。我们希望您和我们一样对建议的新 ECS 功能感到兴奋。

非常感谢您的任何反馈。

愉快的部署！

RFC:带有 Octopus 声明的 Octopus 配置的版本控制- Octopus Deploy

原文：https://octopus.com/blog/rfc-version-control

在我们的 UserVoice 中，第六高的投票项目是以某种方式在源代码控制中存储 Octopus 数据。这是我们经常思考的问题，我已经记不清这些年来我们在白板上画了多少次解决方案。

我们在 2017 年的路线图中说过我们会做一些事情，但这可能是一项重大的任务。每次我们想出如何做到这一点时，我们的方法都分为几类:

仅在 Git 中存储 Octopus 建模数据
将 Octopus 建模数据存储在数据库中，但将其同步到 Git repo——团队城市方法
存储单独的脚本等。让 Octopus 引用它们

我认为我们已经提出了解决这个问题的另一种方法，这种方法更简单，可以满足大多数用例，并且比默认的“将 Octopus 设置同步到版本控制”更加灵活和强大。我现在称之为“ Octopus Declarative ”，在这篇文章中，我想说明为什么这是一种更好的方法，并获得您对这是否是正确方向的反馈。

我们要解决什么？

Octopus 存储了许多不同的数据，并不是所有的数据都存储在 Git 中有意义。人们要求的主要东西是:

步骤模板和 PowerShell 脚本
部署流程
可变集合

您还可以证明其中一些也值得存储在 Git 中:

生命周期和渠道
环境
房客

在更高的层面上，人们似乎最感兴趣的用例是:

能够浏览历史、轻松比较和回滚更改
能够在 Octopus 服务器之间移动配置
能够创建一些东西的多个副本(例如，基于模板的项目)

为什么 Git“同步”方法如此困难

假设我们采用了将 Octopus 中的设置与 Git 存储库同步的方法。要让它真正有用，它需要双向工作(这样人们可以在 Git 中进行更改，并让它们出现在 Octopus 中)。

冲突解决

第一个问题是同步过程和冲突的处理。每次你在 Octopus 中改变一些东西，我们都需要把改变提交给 Git，并把它推送到你已经配置好的任何远程设备(比如 GitHub，VSTS)。很有可能在其中一个遥控器上有冲突性的改变，所以 Octopus 需要某种形式的冲突解决方案。

如果您改变一个部署过程，然后创建一个发布，然后部署它，并且在这个过程的某个地方我们检测到一个冲突，会发生什么？我们可以回滚，但我们已经基于该更改进行了部署。

范围

第二个问题是范围。我们有一个 Git repo 用于整个 Octopus 服务器吗？还是每个项目都有一个？

鉴于 Octopus 用于生产部署，Git 对谁可以编辑给定路径中的文件没有太多控制，我认为 Octopus 服务器范围的 Git 回购是不可能的。但是如果我们要对每个项目都有一个回购(对库也有一个)，当我们需要对多个项目进行变更时会发生什么呢？如果其中一个回购协议有冲突，而其他回购协议没有冲突，会发生什么？

当我思考这些问题时，我意识到所有这些问题都有解决方案。但我的蜘蛛感官告诉我，要让它做好生产准备还需要相当大的努力。我可以很容易地想象我们花 4-6 个月的时间让这样的东西工作。

备选方案:基础设施作为代码方法

当我考虑版本控制和 DevOps 工具时，我突然意识到还有其他方法可以解决这个问题。

以亚马逊网络服务为例。AWS 是代码为的基础设施的最佳范例。见鬼，AWS 团队没有在 AWS 控制台用户界面上投入任何精力的原因是因为他们假设每个人都在使用命令行或 REST API 来管理他们的 AWS 基础设施(好吧，这是我瞎编的)。

没有人会声称“我们不应该使用 AWS，因为它不受版本控制”。然而，我在 AWS 中找不到任何页面告诉它将你的 AWS 账户同步到 Git 。相反，AWS 公开了 API，您可以针对它们编写代码——当然，您可以对代码进行版本控制。

当你仔细想想，它要优越得多:

范围问题消失了。由您决定哪个存储库应该包含设置 AWS 帐户各个部分的代码。
因为您是针对 API 执行代码，而不仅仅是将 JSON 文件推入 Git，所以您可以使用 for 循环、查询外部服务等。

诚然，某些 AWS 服务(如 CloudFormation)确实使用声明性 JSON 方法来配置它们，但同样，您不会将它们提交给存储库并期望 AWS 双向同步它们——您自己对其进行版本控制，然后调用它们的 API 来上传新的配置。

您已经可以在 Octopus 中做到这一点

Octopus 已经有了一个全面的 REST API ，你可以用它来做任何你可以在 Octopus UI 中做的事情。而且我们有一个. NET 客户端库， Octopus。客户端，你可以从 C#轻松使用 API。

例如，如果您想要对步骤模板进行版本控制，现在您可以:

创建使用 Octopus 的控制台应用程序。客户
通过在客户端调用适当的方法来定义每个步骤模板
从. PS1 文件加载每个步骤模板的脚本体
将所有这些存储在版本控制中

每次您更改. PS1 文件或 step 模板参数时，您只需重新运行您构建的这个应用程序，将新配置推送到 Octopus 中。你甚至可以建立一个 TFS 或 TeamCity build 来编译、测试并在每次修改脚本时运行它。

对于部署过程或变量集也可以这样做(敏感变量除外——我们会找到解决方案)。

问题解决了！有点儿...

今天的不足之处

虽然你可以这样做，但现在我不会向所有人推荐。首先，检查每个资源是否存在的代码，如果不存在就创建它，如果存在就更新它，等等..会变得非常乏味。

解决方法:章鱼。客户端.声明性

我提议的解决方案是在现有的“命令式”章鱼之上创建一个层。客户端名为 Octopus.Client.Declarative。您可以创建一个 C#控制台应用程序，如下所示:

【T2 A Visual Studio project that uses the declarative approach

每个类都声明性地定义了您在 Octopus 服务器中的期望:

public class HelloWorldScriptTemplate : ScriptStepTemplate
{
    public HelloWorldScriptTemplate()
    {
        Name = "Hello world";
        Body = FromFile("HelloWorld.ps1");
    }
}

Program.cs文件将调用 Octopus 中的一些方法。客户端通过调用我们的 REST API 来应用配置，检查资源是否存在，如果不存在就创建它们，并确保它们符合预期。

我们还会构建一些定义其他资源类型的好方法。将会有一个很好的 C#对象模型来构建部署过程或变量集。或者从 CSV 或 XLSX 文件导入变量。

作为代码，你可以循环遍历所有的东西。例如，也许您希望可以为您的每个客户克隆一个“模板”项目的副本:

public class MyProjectTemplate
{
    public MyProjectTemplate(string customerName, string databaseName) 
    {
        Name = "MyProject - " + customerName;
        Steps = ...
        Variables = FromSpreadsheet("Variables.xlsx");
        Variables["DatabaseName"] = databaseName;
    }
}

在您的Program.cs中，您可以遍历您的客户数据库，为每个客户创建新的模板，然后将配置推送到 Octopus。

这类似于 Kotlin DSL 为 TeamCity 所采用的方法，除了您在如何和何时运行它方面有更多的选择。

为了让这个功能真正发光，让人们使用它，我认为我们需要一些额外的功能。

漂移检测

除了应用声明性配置之外，您还可以检测 Octopus 服务器中是否有任何变化，这意味着它已经“偏离”了配置。例如，您可以按计划运行它，以检测是否有人修改了他们不应该修改的内容。

锁

如果你在一个外部数据集上循环，并使用它来动态地创建 Octopus 项目，如果用户对这些项目做了修改，他们会很生气，而你在下次项目运行时就把它们删除了。我想我们会提供一个简单的机制，让您“锁定”某些资源类型，使其不能在 UI 中被编辑，并提供一个很好的消息。

出口

将我们的 UI 映射到底层的资源并不总是容易的，所以我们需要某种方法来获取一个对象并将其导出到等价的声明性 C#代码。这也可能是章鱼的一部分。客户端，或者我们构建到 Octopus UI 中使其可被发现的东西。

副作用

如果我们采用这种方法，除了最初的 UserVoice 建议能够对您的 Octopus 配置进行版本控制之外，我们还有一个解决方案可以帮助解决其他一些问题:

复合步骤模板 - 609 票很多时候人们只是希望多个项目重用部署步骤。跨项目重用 C#代码中的同一个对象是可能的。唯一的问题是，对于这些项目来说，它们是否可以在 UI 中不可编辑。
改进变量 UI - 834 票这里大部分的评论都集中在处理很多变量上，这些变量很可能在别处有定义。虽然我们仍然应该努力改进 UI(我们会的！)，能够用程序创建它们或从电子表格中导入将会对许多人有所帮助。
可继承模板 - 171 票我上面的例子已经展示了这是如何工作的。事实上,“模板”项目可以在 Octopus 中保持可编辑状态，代码会将它拉下来，并为它的每个实例克隆它。

你怎么想呢?

作为一名产品负责人，我不害怕耗时 6-9 个月或更长时间的“停止世界重写”。我们在 Octopus 1.6 到 2.0 中做到了这一点，当时我们重写了编排层并采用了 API 优先。在 3.0 中，当我们从 RavenDB 切换到 SQL Server 时，我们又做了一次。当我确信最终结果会是一个更好的产品时，我很乐意沿着这条路走下去。

如果我们采用将 Octopus 配置作为 XML 或 JSON 文件存储在 Git 存储库中的方法，我认为要解决我之前提到的挑战需要付出巨大的努力。最后，如果您想采用“for 循环”方法来基于外部数据源动态生成您的配置，您会想要禁用 UI 编辑，并使用一种好的、强类型的语言来完成它。我认为我们可以用更少的努力来建造它。

我们正处于一年中的某个时刻，我们需要以某种方式做出决定。如果我们采用 Git sync 方法，用户体验可能会影响我们正在构建的大部分新功能，所以我们可能会首先着手于此。另一方面，如果我们采用我在这里概述的声明性 Octopus 客户端方法，我们可以在接下来的几个月中轻松发布和改进它，而不会减慢其他任何东西的速度。

我的问题是:这种声明式 C#方法对你有用吗？或者你还需要版本控制 Octopus 配置中的其他东西吗？

请求反馈-使用 Octopus - Octopus Deploy 部署到 Google 云平台

原文：https://octopus.com/blog/rff-deploying-to-google-cloud-platform-with-octopus

Octopus 2021.2 带来了许多功能来支持团队部署到谷歌云平台(GCP)。在 2021.2 中，Octopus 拥有对 AWS、Azure 和 Google 云平台的核心支持。

这篇文章介绍了 Octopus 支持 GCP 部署的新特性，并提供了如何在您自己的部署过程中使用它们的技巧。

在文章的最后，你可以提供你的反馈，告诉我们这些新功能对你来说是有效的还是无效的，并对 GCP 未来的功能提出建议。

服务客户支持

Octopus 包括一个名为谷歌云账户的新账户类型。该帐户安全地存储为服务帐户生成的 JSON 密钥:

继承 VM 服务帐户

对于喜欢在 Octopus 之外管理凭证的团队，每次与 GCP 的集成都允许从工作人员那里继承一个服务帐户。

这是一个带有相关服务帐户的 Google 计算引擎(GCE)虚拟机:

该虚拟机上安装了一个工作线程，并链接到 GCP 工作线程池:

然后，我们可以使用与该虚拟机相关联的服务帐户。下面是一个 Kubernetes 目标的例子，它被配置为继承运行它的工作者的凭证:

请注意，目标必须配置有包含 GCE 工作线程的工作线程池:

运行状况检查和部署等操作使用分配给工作虚拟机的凭据执行，无需将这些详细信息存储在 Octopus 中:

Google 容器注册支持

Google Container Registry (GCR)支持已经包含在现有的 Docker 提要类型中。将提要 URL 定义为区域 GCR URL之一，并提供一个用于认证的服务帐户 JSON 密钥。

然后，可以从 GCR 源获得图像:

支持 gcloud 脚本

名为在脚本中运行 g cloud的新步骤可用于在 GCP 帐户的上下文中运行脚本。

作为这一步骤的一部分运行的任何脚本都可以利用 Octopus 管理的登录过程。这使得脚本可以专注于它需要执行的操作，而不是登录的样板过程:

【T2 Octopus dashboard open on Projects tab showing Process Editor with Bash selected for Inline Source Code

地形支撑

Terraform 步骤包括使用选定的 Google 凭据建立上下文的能力，将这种担心从 Terraform 模板转移到步骤中。

部署 Terraform 需要持久化状态的能力。对谷歌用户来说，一个方便的解决方案是将 Terraform 状态保存在谷歌云存储(GCS)桶中:

terraform {
  backend "gcs" {
    bucket  = "octopus-tf-state" # change this to match the name of your GCS bucket
    prefix  = "terraform/state"
  }
}

结论

Octopus 2021.2 支持 GCP 服务帐户、GCR feeds、GKE 身份验证选项、专用的 GCP 脚本步骤以及 Terraform 中的谷歌身份验证支持，可以轻松部署和管理您的 GCP 基础设施。

我们需要您的反馈

我们希望听到您的反馈！我们有一个 GitHub 问题，你可以发表评论关于这些新功能对你来说如何工作，或者不工作，以及对未来 GCP 功能的任何建议。欢迎所有反馈，我们很想知道:

您目前在 GCP 执行哪些部署或运营任务？
部署或管理 GCP 时的难点是什么？
你使用谷歌 Kubernetes 引擎、谷歌应用引擎、谷歌云功能、谷歌云运行或其他平台吗？
新功能对你有用吗？如果没有，你有什么建议可以改进它们？

https://www.youtube.com/embed/F_V7r80aDbo

愉快的部署！

八达通部署 2017 路线图-八达通部署

原文：https://octopus.com/blog/roadmap-2017

Octopus Deploy 2017 roadmap

从 Octopus 的早期开始，我就一直坚信应该公开我们的路线图。当 Octopus 只有我一个人的时候，我经常在公共的 Trello 板上放上我计划要做的所有事情。当我们超过了一个单独的 Trello 板时，我们开始保留一个 GitHub 问题列表和一个公共的路线图页面，上面有我们的高级计划。

随着 2016 年接近尾声，我们开始规划 2017 年，我们花了很多时间思考我们今年想要完成的目标，我已经将这些纳入了 2017 年的路线图。我们今年有一些雄心勃勃的目标，我对清单上的内容感到非常兴奋。尽情享受吧！

摘要

到 2017 年底:

Octopus 将实施所有超过 200 票的 UserVoice 项目
章鱼的学习曲线会更低
Octopus 将拥有一流的 PowerShell DSC 支持，并用于管理正在运行的应用程序
Octopus 将有一个更好的 UI 来配置部署步骤，并支持 IIS 中的每个选项
八达通用户应该能够通过一个聊天应用程序与八达通互动
Octopus 将使用 Swagger 公开其 API，使最终用户更容易使用我们的 API
Octopus 将对亚马逊网络服务有更好的内置支持
Octopus 将为不想安装 Mono 的客户提供 Linux 部署
Octopus 将通过发布促销使 PCI 兼容部署得到开箱即用的支持
Octopus 将作为生产就绪的平台即服务解决方案提供

总体战略

对于 Octopus 来说，真正的长期成功是由活跃的成功安装数来衡量的。该路线图中的所有内容都旨在为此做出贡献——通过以下方式:

让现有客户高兴他们选择了八达通，并给他们续延的理由
扩展 Octopus 可以支持的场景范围
使其更易于使用

高级路线图

这些是我们今年路线图上的头条项目。对于其中的大部分，我们将在开始设计和工作时发布我们的传统 RFC 帖子，所以我在下面只包括它们的简短摘要。如果你有任何问题或想法，欢迎在评论中提出！

超过 200 票的所有用户声音项目

目前在我们的用户之声网站上有超过 914 个想法，我们不太可能找到它们的长尾，我不认为我们的任何客户会期望我们建立所有的想法。但是很多建议都是几百票，到现在已经开了几年了，这是不能接受的。所以今年我们发誓要对超过 200 票的所有建议采取行动。

以下是今天的名单:

章鱼行动

对于许多较小的团队来说，Octopus 是他们拥有的最接近通用“DevOps”工具的东西。像所有人一样，他们用它来部署 ASP.NET 应用程序、数据库升级和 Windows 服务。但是他们也使用它来跨机器运行特定的脚本，或者作为配置管理和机器供应工具。或者他们利用我们的健康检查作为监控工具。

虽然有许多优秀的工具专门从事配置管理或监控，我们不打算出去与它们竞争，但我们确实看到，对于较小的环境，Octopus 可以很好地完成这些工作。今年，我们想以两种不同的方式对此进行扩展。

首先，我们要确保 Octopus 拥有一流的 PowerShell DSC 体验。我已经写了关于你如何在 Octopus 中使用 PowerShell DSC 支持。我们将通过支持重启来完善这一点，并做一些 UI 工作来使其更加精简。

其次，我们将最终实现在我们的监控&服务管理 RFC 中讨论的操作特性。正如我在 RFC 中所写:

Octopus 仪表板显示您的最后一次生产部署是否成功。如果它还向您显示您部署的内容是否仍在运行，那会怎么样？...不过，它不仅仅局限于监视状态:您还可以启动/停止这些服务。您昨天部署到 30 台机器上的 Windows 服务在其中 7 台机器上突然崩溃了吗？没问题，只需点击按钮，选择你想重启的 7，点击执行按钮。肯定胜过使用远程桌面！另外，会有很好的审计记录。

这两个项目的构建块已经存在:可脚本化的健康检查、PowerShell 步骤和步骤模板运行程序已经提供了大部分实现工作。我们只需要把它们粘在一起，告诉人们如何使用它。

章鱼 Slack 应用

我们刚刚在 Octopus 中发布了“订阅”支持，这让我们可以在 Octopus 中发生事件时通知 web 服务。这一点，加上我们的 API，是我们构建梦想中的“ChatOps”体验所需的所有构件。这将采用 Slack 应用程序的形式，客户可以将其连接到他们的 Octopus 服务器。您可以将 Slack 应用程序与您的 Octopus 服务器相关联，并执行以下操作:

询问 it 在生产中部署了什么
告诉 it 部门将测试版本升级到生产版本
被通知部署状态

新的步骤生成器和更多的 IIS 选项

迄今为止，在 Octopus 中配置部署步骤的 UI 必须平衡:

允许您配置部署所需的一切
没有让你不知所措

对于配置 Windows 服务之类的东西的部署步骤，无论如何只有少数几个选项。但是有些步骤，比如配置 IIS 的步骤，可能有数百种不同的设置需要设置。目前，这意味着我们只公开最常见的设置，您必须编写 PowerShell 来完成其余的工作。

我们花了一些时间来考虑替代的用户界面，这将允许我们逐渐暴露你关心的设置，隐藏你不关心的设置，我认为我们已经找到了如何做到这一点。当你想在 Octopus 中配置每一个 IIS 设置时，我们就会知道我们已经做到了。

降低学习曲线

Octopus 是那种“设置好就忘了”的工具；您下载它，设置它，并花一点时间设置您的部署过程。您迭代几次，直到流程和变量正是您所需要的。当所有这些都完成后，您就可以进入创建和部署版本的良好节奏了——如果您的部署需要改变，您只需要修改过程。

最初的部署过程配置对大多数人来说是困难的部分。今年，我们将做大量的工作，努力使设置更简单、更流畅。

单一自由 Linux (SSH)部署

Octopus 目前支持使用 Bash 通过 SSH 部署到机器上，允许它用于部署到 Linux 服务器(以及其他)。然而有一个缺点:我们目前需要安装 Mono，因为我们调用这些脚本的方式。对于一些人来说，这种依赖太大，太难安装，或者他们不喜欢。

如果你只是运行一个简单的脚本，我们会让它不需要单声道就能运行。访问 Octopus 变量的方式可能会改变，但除此之外，一切都会正常工作。对于带有内置约定的完整包部署，我们仍然会使用我们的 Calamari 工具，但是我们会将它们移植到。NET Core(并且可能能够为通用架构编译它们),因此依赖性会更小。

八达通发行促销

许多客户工作的环境中，版本必须在一个以上的 Octopus 服务器之间流动，最常见的两种情况是:

PCI 兼容环境，其中部署到生产环境的 Octopus 必须隔离
使用一台 Octopus 进行开发/测试，但随后需要在每个客户站点安装一台 Octopus 服务器来进行生产部署的机构

我们过去曾多次尝试解决这些问题:

Octo.exe 出口-这是有限的，但对许多人有用
octopus Migrator——它几乎输出了所有内容，但太吵了——人们主要关心的是推广个人版本
离线丢弃——这些方法在下游环境很小时有效，但是当机器数量增加时，你很快就会自己复制章鱼

我们将尝试一劳永逸地解决这个问题，让您在一个 Octopus 服务器中声明“下游”和“上游”环境，这些环境实际上是在另一个 Octopus 服务器中管理的，并促进它们之间的发布。

当您将一个版本升级到下游的 Octopus 服务器时，我们将导出该版本、包、变量和流程快照，以及下游 Octopus 服务器需要知道的所有其他内容。如果 Octopus 服务器联网，您将能够自动在它们之间传输该导出，或者将它们放在 USB 驱动器上用于 air gap 部署。当你在下游的 Octopus 中部署它们时，你会得到一个“收据”,它可以被导入到上游的 Octopus 中。

我希望通过构建这一功能，我们能够消除之前解决这一场景的所有三种尝试，并节省大量客户手动解决这一问题的时间。

“炫耀”我们的 API

我们在 Octopus 2 中冒了很大的风险，为 Octopus 中的所有东西构建了一个 REST API，然后在它的基础上重写了我们的整个 UI。这种 API 优先的思想很好地服务了我们，并且变得非常受欢迎——人们使用我们的 API 来做各种我从未想象过的事情。

我们将通过支付一些技术债务(我们的 API 对我们来说比它应该的更难维护)和增加对 Swagger 的支持，使 API 更容易被发现，这将为您提供一个出色的 UI 来探索我们的 API。这应该使构建我们的 API 更加容易。

更紧密的 AWS 集成

对于 Azure 用户，Octopus 已经内置了部署步骤和帐户支持。我们将继续添加更多的步骤(Azure Service Fabric 是最明显的)，但我们也将使对 AWS 的支持达到标准。我们将增加对 AWS 账户的支持，以及使用常见 AWS 服务的步骤，如 CloudFormation、EC2、S3 和 Elastic Beanstalk。

PaaS 章鱼

当我开始使用 Octopus 的时候，云还没有获得很大的吸引力，我们的客户几乎完全是本地的。我们注意到越来越多的客户将他们的代码和 CI 环境迁移到云上，无论是通过 GitHub/AppVeyor 还是 VSTS，我们认为这种趋势只会朝着一个方向发展。我们最近将 Octopus 添加到 Azure marketplace 中，这样你就可以在自己的订阅中安装 Octopus 服务器，但我们认为我们需要更进一步。

对于作为创始人/首席执行官的我来说，这是这个路线图上最困难的一项，因为它不仅需要技术变革，还需要组织变革——从成为一个封装软件供应商到学习如何发展和支持 PaaS 产品。

关闭

我们在今年的路线图上花了很多心思，而且有很多项目。我敢肯定会有一些失望-每个人都有他们希望章鱼能做的事情，包括我自己-但我也希望这里对每个人都有价值。2017 年万事如意！

八达通部署 2018 路线图-八达通部署

原文：https://octopus.com/blog/roadmap-2018

昨天我贴出了我们对 2017 年的反思。我写了一些我们完成的事情，一些我们没有完成的事情和原因，以及我们面临的一些挑战。今天，我想分享我们的 2018 年路线图。

主题

我们将在 2018 年开展的工作有四个关键主题。

将云托管版本的 Octopus 推向市场
在微软生态系统之外扩展 Octopus
将 Octopus 发展成一个完整的 DevOps 工具
不断提高性能、可扩展性、稳定性和用户体验

云章鱼

当我们第一次构建 Octopus 时，世界上大部分地区仍在内部部署应用程序。Octopus 是您在企业中与数百个其他虚拟机一起运行的虚拟机。当我们与较大的客户交谈时，这实际上仍然是常态——不管云供应商希望您相信什么，仍然有大量的本地服务器。

也就是说，如果你部署的每一个应用都是 Lambda 函数、Azure 网站或 Docker 容器，那么仅仅为了 Octopus 而必须照看一个 VM 就是一种拖累。我们的朋友杰里米·凯德曾经说过:

Octopus 是我用的最重要的东西，也是我仅剩的 VM。

一个云托管版本的 Octopus 需要做大量的工作，这是我们致力于很快交付的东西。与该路线图中的许多努力不同，这些努力往往是具有“完成”定义理念的项目，这个云托管版本的 Octopus 将是一项长期投资，也是我们组织上的一个重大变化。

我们已经为此工作了几个月，我们将在 2018 年 1 月推出一个封闭的 alpha 版本，然后在 3 月底之前推出一个开放的 beta 版本。最初，我们将尽可能保持它与 Octopus 的本地版本相似，随着我们从生产中运行它中学到更多，我们将针对云对它进行改进和优化。

扩展到微软生态系统之外

在过去的几年里，我们有微软商店和 Java 商店，大多数公司的立场非常明确。Octopus 最初只是一个. NET 部署工具，但是几年前我们就意识到这需要改变。人们和公司更少认同“一个”。NET 开发人员"和更多的作为"开发人员，谁碰巧做。NET 以及一些节点和一些其他平台。

我们已经支持通过 SSH(没有 Mono 依赖)部署到非 Windows 平台，运行 Bash 脚本，2017 年我们在部署 Java 应用程序方面取得了很大进展。迄今为止，我们的成功主要是与偶尔使用非微软技术的微软商店。

今年我们将继续这个主题:

我们将带来一流的 AWS 支持，达到 Azure 支持的水平
我们将把触手引入 Linux(以允许轮询连接)
我们将增加对运行 Python 和 Ruby 脚本的支持(除了 PowerShell、C#、Bash 等。今天)
我们将扩展现有的 Docker 支持来与 Kubernetes 合作

Octopus 部署应用程序，但它可以用来部署更多应用程序。当你想一想:

Octopus 对你的应用程序了如指掌——它们是用什么语言编写的，在什么网络服务器上运行
您的部署管道(开发、测试、生产等。)
在所有这些环境中，您的应用程序是如何配置的
一切赖以运行的基础设施

有了这一切，我们可以做的不仅仅是“仅仅”部署:

借助 AWS 云形成、Azure 资源组模板或 Terraform，我们可以为您创建的每个功能分支提供和部署到环境中
我们可以为测试人员提供测试环境，并在下午 5 点后取消提供
我们可以运行部署之外的流程。任何类型的“维护”或“操作”过程或操作手册都可以在 Octopus 中建模:
- 灾难恢复故障转移流程
- 运行状况检查和合规性检查流程
- 将生产数据库备份恢复到您的测试环境
- 针对最近部署的环境运行自动化 UI 测试
按计划运行这些程序，使用参数手动运行，或者在监控工具发出警报时作为挂钩运行

我们已经花了很多时间来设计这些想法和故事，我们相信我们可以在不损害章鱼“做一件事并把它做好”的哲学的情况下实现这一点。

可扩展性和持续改进

Octopus 正在成为越来越多公司的标准部署工具，我们希望确保这是一种无缝的体验。今年，我们将为那些经常使用八达通的人做出重大改进:

一个新的“空间”功能可以让你把你的 Octopus 服务器按团队或部门分开，给每个人独立的项目、环境、授权等等。
“工人”将允许今天标记为“在 Octopus 上运行”的脚本在其他地方运行(就像构建代理)。这将使你的八达通服务器更容易隔离副作用。
我们将对 Octopus 的可扩展性和性能进行重大改进。这对于拥有云托管 Octopus 的我们来说是必要的，但也将使 Octopus 客户受益匪浅。管理云托管的 Octopus 将让我们更深入地了解大规模运行 Octopus 是什么样子。
我们将继续寻求性能、质量和用户体验的改进。
我们将建立远程发布促销。
我们将继续处理用户意见建议，我们将确保对任何进入前 10 名的事情做些事情(或者，明确决定我们不做这些事情)。今天这些是:
- 700 票 复合步骤模板
- 570 票‘演习’部署
- 447 票 周期性预定部署
- 442 票 版本控制配置
- 365 票 权限属性为变量集，库变量集，甚至变量
- 317 票 输出变量为离线滴
- 310 票 允许项目依赖——因此部署一个项目将自动部署所有依赖的项目
- 288 票 环境组
- 263 票 支持 Kubernetes
- 257 票 允许预定部署的批准步骤发生在实际部署之前

包扎

“没有一个作战计划能在与敌人的第一次接触中幸存”

赫尔穆特·冯·毛奇

我们可能无法在 2018 年完成清单上的所有事情，随着时间的推移，我们可能会做一些清单上没有的事情。我相信每个阅读这篇文章的人都会理解这就是路线图的本质——这是我们试图勾勒出今年的计划和目标，而且很可能会改变。也就是说，我希望这个清单上有适合每个人的东西。愉快的部署！

了解更多信息

角色和升级-征求意见- Octopus 部署

原文：https://octopus.com/blog/roles-and-upgrades

在之前的一篇文章中，我写了当在 Octopus 中创建一个发布时，步骤和变量是如何成为“快照”的一部分的。我提到我正在做的一个改变是在 Octopus 中引入“角色”的概念。

它过去是如何工作的

概括地说，在 Octopus Deploy 的 1.0 版本中，环境有机器，项目中的步骤引用这些机器:

Machine steps

在上面的例子中，我正在为 NuGet 包创建一个步骤，并且我已经从生产环境中选择了两台机器。

这种设计有缺点:

如果您添加或删除一台机器，您将不得不更新每个项目，并创建新的版本
旧版本不会被部署到新机器上，或者如果它们引用了不存在的机器，则不允许部署

在云计算和横向扩展的世界里，这是一个很大的问题，所以我一直在努力解决这个问题。

它将如何工作

在 Octopus Deploy 1.1 中，您可以将机器标记为服务于一个或多个“角色”，您可以自己定义这些角色。

Machines in Octopus 1.1

当您创建一个步骤或变量时，不需要专门选择机器，您只需选择一个目标角色:

Editing steps in Octopus 1.1

这同样适用于变量——变量现在可以作用于“角色”,而不是机器。

升级

对于 Octopus Deploy 中已有数据的客户来说，这就产生了一个问题。以前，步骤引用机器。在新模型中，步骤引用角色，机器处于角色中。这两种数据模型是不兼容的，我正在尝试决定迁移体验将如何工作。

似乎有几个选择。一个是打破向后兼容性——旧的版本/项目可能变成只读的，在定义角色和更新步骤/变量之后，用户将不得不访问每个项目来创建新的版本。只有这样，您才能再次部署发布。显然这有很多缺点。

选项 2 是通过支持两种模型来无限期地保持向后兼容性。虽然这可能是一个更好的短期体验，但从长远来看，我认为这只会造成混乱，因为有两种方法可以做同样的事情。与旧模型相比，基于角色的模型没有真正的缺点，因此无限期地支持旧模型是没有意义的。

最后，选项 3 是通过自动给每个机器一个唯一的角色(例如，“机器-123”)，然后转换引用该机器的旧步骤/变量以引用其唯一的角色来“适应”数据。通过这种方式，我们将一切都转移到基于角色的模型，旧版本可以继续部署，用户可以在升级后根据需要整理/重构角色。一开始可能会令人困惑，但 Octopus Deploy 用户都非常聪明，所以我认为他们可以处理好:)

摘要

处理模式版本中的这种语义差异是一个有趣的问题，目前我倾向于选择 3。

如果你现在正在使用 Octopus Deploy，你希望升级如何进行？请在下面的框中留下您的评论:)

Octopus Deploy 的回滚策略- Octopus Deploy

原文：https://octopus.com/blog/rollback-strategies

当讨论回滚时，话题不可避免地转向蓝/绿、红/黑或金丝雀部署模式。这些模式使回滚变得更容易，但是，它们的实现非常耗时，有时它们并不是必需的。也许您推出了一个要测试的 API 变更，并且您想要回到一个已知的良好状态。这不是你第一次尝试实现这些模式的时候。

在这篇文章中，我将介绍一个您现在可以执行的回滚策略，而无需实现高级部署模式。

超出范围
回滚数据库更改超出了本文的范围，因为成功回滚数据库更改是一个复杂的话题，有很多陷阱。这篇文章主要关注代码回滚。它演示了如何在回滚期间跳过数据库部署步骤。实际上，代码和 UI 的变化比数据库的变化要频繁得多，尤其是在测试环境中。大多数模式变化发生在新特性的开始，在测试过程中会有一些小的调整。

什么是回滚？

这篇文章将帮助您修改现有的(工作的和经过测试的)部署过程，以支持回滚。

首先，让我们看看回滚完成了什么。

考虑这些场景:

QA 团队因为在最近的部署测试中引入的一个 bug 而受阻，而该修复离签入还有几个小时。
在生产部署验证过程中，发现了一个令人瞠目结舌的错误，需要花一天时间来修复和测试。

在这两种情况下，回滚的目标是相同的；将应用程序快速恢复到已知的良好状态。

许多客户关注生产场景，但是测试场景出现得更频繁，影响也更大。如果你遵循 Octopus Deploy 的核心规则，即构建一次，在任何地方部署，那么一个引人注目的 bug 进入生产的机会是很少的。然而，测试是不同的；有一种心态认为只有少数人受到影响，但这是不真实的，因为如果 QA 一次被封锁几个小时，最后期限就会溜走。

目标是回到已知的良好状态，但这不同于部署。跳过特定步骤可以加快回滚速度。许多部署流程都是在假定没有配置任何相关软件或基础架构的情况下创建的。例如，一个部署过程可以触发一个 runbook 来创建一个数据库(如果它还不存在的话);或者安装 Node.js 的最新版本。在回滚期间，不需要这些额外的步骤。如果您在部署应用程序的2021.2.3时检查数据库是否存在，那么在回滚到2021.2.1时就不需要再次检查了。

For this post:

回滚是通过运行原始部署过程的修改版本来返回到已知的良好状态。

向前滚动或向后滚动

不是所有的版本都可以也应该回滚。上述场景提到修复需要几个小时或几天的时间。通常，前滚风险更小，耗时更少。一个小的补丁比回滚一个主要版本更容易测试和部署。

以下是我们建议前滚的一些典型原因:

您不能选择在二进制文件中回滚哪些代码。要么全部回滚，要么什么都不回滚。一个团队在一个月或一个季度的发布时间表中有几十或几百个变更。这就是为什么我们也建议更定期地发布较小的变更集。
通常，数据库和代码更改是紧密结合在一起的。安全地回滚数据库而不丢失数据是极其困难的。
用户会注意到什么时候发生了变化，然后又变了回来，尤其是由同一批人整天使用的定制业务应用程序。
随着面向服务架构 (SOA)和它的表亲微服务的激增，代码变更很少是孤立进行的。“适当的”SOA 和微服务架构彼此之间以及与它们的客户端之间是松散耦合的。然而，在现实世界中，耦合是存在的。回滚到后端服务可能会产生下游影响。

不过，在几种情况下，回滚可能是正确的解决方案。具有大型数据库的遗留 monolith 应用程序可以在特定情况下成功回滚。这些场景包括:

仅更改样式或标记
后端代码更改，没有公共接口或模型更改
与外部服务或应用程序的耦合为零或最小
零到最小的数据库更改(新索引、更改存储过程以提高性能、调整视图以包括已连接表上的附加列)
自上一版本以来的少量变化

虽然我们建议进行前滚，但是在您的 CI/CD 渠道中实施回滚过程是一个很有价值的选择，即使回滚每月发生一次。

测试您的回滚过程

许多年前，在一次生产部署后的几个小时，我被告知有一个停止显示的 bug。我很惊讶，因为这个版本已经通过了 QA 几周的验证。我们无法确定原因，并得出结论需要回滚-多年来的第一次。

部署文档中的回滚计划是:“回滚到以前版本的代码”。不幸的是，这不是一个详细的计划。我们上报了这个问题，并通知了参与发布的所有人(从 QA 到企业所有者和经理)。

我们从头开始创建了一个新的回滚计划。尽管有新的计划，我们估计成功回滚的几率为 10%。这是一个没有胜算的局面。我们有一个无法重现(因此无法修复)的错误，或者我们可以回滚并抓住机会。

虽然回滚提供了一些机会，但也不是没有机会。每个人都被分配了一项任务。我逐项检查了变更日志，并记录了回滚的影响。

在我们需要做出最终回滚决定的 15 分钟前，我发现了一个看起来可疑的代码块。我测试了那个代码块，确定它是罪魁祸首。

我们中止了回滚计划，实现了一个修复，并在当天晚些时候推出了这个修复。我们不用测试未经证实的回滚过程，这让我们松了一口气。

这个故事强调了多次测试回滚过程的重要性。理想情况下，应该每周对其进行测试和验证。在生产中断期间，您最不想做的事情就是开发一个新的回滚流程或运行一个未经测试的流程。

示例部署流程

现在我解释如何更新现有的部署过程来支持回滚。

我选择 OctoFX 示例应用程序作为这个例子，因为它与我看到和使用的许多应用程序相似。它有以下组件:

SQL Server 数据库
Windows 服务
ASP。NET MVC 网站

该应用程序的部署过程是:

当数据库不存在时，运行操作手册来创建数据库
部署数据库更改
部署 Windows 服务
部署网站
暂停部署并验证应用程序
通知风险承担者部署已完成

您的数据库平台、后端服务和前端可能使用不同的技术。在这篇文章中，我更新了这个过程，在回滚过程中跳过特定步骤并运行额外的步骤。

重新部署以前的版本

我的回滚过程的核心概念是重新部署以前的版本。您可以通过以下方式做到这一点:

选择您想要重新部署到目标环境的版本。在我的例子中，我将2021.9.9.3重新部署到测试。

点击溢出菜单，选择重新部署...。

【T2 Selecting re-deploy from overflow menu

您将被发送到部署屏幕。点击部署开始重新部署。

部署模式

按原样重新部署以前的版本意味着以前部署的所有步骤都将重新运行。如前所述，回滚的目标是通过运行稍微修改的部署流程回到已知状态。

您的回滚过程将与示例不同；我使用数据库步骤作为例子。目标是向您展示如何禁用步骤，而不是禁用什么。

要禁用回滚的特定步骤，我们需要知道回滚正在发生。但是我们将重新部署现有的版本。不过，将同一个版本重新部署到当前环境是一个有效的用例。我们需要知道的是“部署模式”。

部署:第一次将一个版本部署到一个特定的环境中，为应用程序添加新的特性、修复错误等等。
回滚:在特定环境下重新部署以前的版本，返回到已知的良好状态。
重新部署:当一个新的服务器上线，或者您需要“启动”应用程序时，在一个特定的环境中重新部署同一个版本。

我们需要知道这一点，因为它改变了部署过程。部署过程中的部署流程运行所有步骤:

当数据库不存在时，运行操作手册来创建数据库
部署数据库更改
部署 Windows 服务
部署网站
暂停部署并验证应用程序
通知风险承担者部署已完成

回滚将跳过前两步。

~~当数据库不存在时，运行运行手册创建数据库~~
~~部署数据库变更~~
部署 Windows 服务
部署网站
暂停部署并验证应用程序
通知风险承担者部署已完成

对于我的应用程序，我只在 web 场向外扩展时进行重新部署。我从不横向扩展应用服务器或数据库。我只想部署网站并通知利益相关者。

~~当数据库不存在时，运行运行手册创建数据库~~
~~部署数据库变更~~
~~部署 Windows 服务。~~
部署网站
~~暂停部署并验证应用~~
通知风险承担者部署已完成

我们需要计算“部署模式”的能力。Octopus 提供了系统变量:

Octopus.Release.Number:当前版本号(1.2.2)。
Octopus.Release.CurrentForEnvironment.Number:上次成功发布的 ID ( 1.1.1，部署到当前环境。

比较Octopus.Release.Number和Octopus.Release.CurrentForEnvironment.Number来计算部署模式:

如果更大，那就是部署
如果少了，就是回滚
如果它们是相同的，那就是重新部署

计算部署模式步骤模板

我创建了步骤模板， 计算部署模式 ，为您执行计算。使用该结果，它将设置几个输出变量。

部署模式:将是Deploy、Rollback或Redeploy
触发:指示部署是由部署目标触发还是调度触发引起的——将是True或False
版本变更:将会是Identical、Major、Minor、Build或Revision

在使用步骤模板时，我意识到大多数人会在变量运行条件中使用 DeploymentMode 输出变量。由于错误处理，运行条件的语法可能很难正确。Octopus 总是评估变量运行条件，以确定该步骤是否应该运行，即使前一步骤中出现错误。如果我们在运行条件中不包括错误处理，它可以评估为True并运行该步骤。我们不想那样。

当部署模式为Rollback并进行所有必要的错误处理时，变量运行条件为:

#{unless Octopus.Deployment.Error}#{if Octopus.Action[Calculate Deployment Mode].Output.DeploymentMode == "Rollback"}True#{else}False#{/if}#{/unless}

我添加了以下输出变量，并添加了必要的错误处理和比较逻辑，使之更容易。

RunOnDeploy:仅当 DeploymentMode 为Deploy时运行该步骤
RunOnRollback:仅当部署模式为Rollback时运行该步骤
RunOnRedeploy:仅当 DeploymentMode 为Redeploy时运行该步骤
RunOnDeployOrRollback:仅当 DeploymentMode 为Deploy或Rollback - RunOnDeployOrRedeploy时运行该步骤:仅当 DeploymentMode 为Deploy或Re-deploy时运行该步骤
RunOnRedeployOrRollback:仅当 DeploymentMode 为Redeploy或Rollback时运行该步骤
RunOnMajorVersionChange:仅在版本变更为Major时运行该步骤
RunOnMinorVersionChange:仅在版本变更为Minor时运行该步骤
RunOnMajorOrMinorVersionChange:仅在版本变更为Major或Minor时运行该步骤
RunOnBuildVersionChange:仅在版本变更为Build时运行该步骤
RunOnRevisionVersionChange:仅在版本变更为Revision时运行该步骤

对于这些输出变量，相同的回滚运行条件的语法是:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnRollback}

阻止发布进展步骤模板

我提到了我想在回滚期间运行的一个附加步骤。一个例子是阻止发布进程。即使在测试环境中，回滚也是一个重大事件。如果一个版本有多个 bug，您不希望它转移到生命周期中的下一个环境。

Octopus 让你阻止释放进程，然而，那是一个手动步骤。我避免手工步骤，所以我制作了一个新的步骤模板，Block Release Progression，以防止发布进程成为部署过程的一部分。

具有回滚步骤的部署流程

使用计算部署模式、可变运行条件和块释放进度，更新后的部署流程为:

计算部署模式
当数据库不存在时，运行运行手册以创建数据库(仅当部署模式为部署时运行)
部署数据库更改(仅在部署模式为部署时运行)
部署 Windows 服务
部署网站
阻止发布进程(仅在部署模式为回滚时运行)
暂停部署并验证应用程序(仅在部署模式为部署或回滚时运行)
通知风险承担者部署已完成

使用步骤注释功能来指示在部署、回滚或始终运行哪个步骤。

设置运行条件

标记为“仅在部署模式为回滚时运行”或“仅在部署模式为部署或回滚时运行”的步骤需要将运行条件更新为变量。该变量将是 计算部署模式 步骤的输出变量之一。

测试回滚

对于我的测试，我有两个版本:

2021.9.9.5:目前在开发环境中。
2021.9.9.6:这是我想部署到开发的新版本。

将2021.9.9.6部署到开发正如预期的那样。步骤 6 被跳过，因为它被设置为仅在部署模式为回滚时运行。

T39

在我的测试场景中，在部署后发现了2021.9.9.6中的一个停止显示的 bug。我们希望:

回滚到2021.9.9.5。
阻止2021.9.9.6上的进程，以防止其被部署到测试或生产。

重新部署2021.9.9.5按预期进行。运行步骤 6 时，跳过步骤 2 和 3。

此外，2021.9.9.6已经阻止了发布进程。用户将在项目仪表板上看到一个可视指示器。

自动回滚

接下来，您需要考虑触发回滚。我建议手动触发回滚并记录一个解释。当您看到一个模式时，您应该添加自动化测试来检测是否满足特定的条件。我担心的是收到一个“误报”，导致一个发布在不应该的时候回滚到生产中。

在这个场景中，我不会自动触发回滚，直到我自动执行了所有步骤来做出回滚决定。

例如，如果您的一个条件没有数据库更改，您应该让脚本检查 SQL 脚本的模式更改(例如:添加表，添加列)。如果发现模式改变，那么回滚是不可能的。

接下来，自动触发所有非生产环境的回滚。在做出几次成功的回滚决策后，将其用于生产。

结论

我认为采用蓝/绿、红/黑或金丝雀等高级部署模式是回滚的唯一方法。我曾经认为，只有在无法采用这些模式的情况下，才应该进行前滚，以节省现有应用程序的时间和金钱。采用高级部署模式有其合理的商业原因，例如，Google 永远不会宕机，因此金丝雀式的部署是有意义的。

但是，一个由几十个人在美国东部时间早上 6 点到太平洋时间晚上 10 点使用的内部业务应用程序不会获得同样的成本收益。

您可以使用可变运行条件和新的步骤模板、 计算部署模式 和 块发布进度 ，对您现有的部署流程进行一些调整来创建回滚流程。虽然它们不会支持所有可能的回滚场景，但是如果您发现一个 bug，它们会为您提供其他选项。

观看网络研讨会:Octopus Deploy 的回滚策略

VIDEO

我们定期举办网络研讨会。请参见网络研讨会第页，了解有关即将举办的活动和实时流录制的详细信息。

愉快的部署！

Octopus 如何处理回滚？-章鱼部署

原文：https://octopus.com/blog/rollback

这个问题出现了很多次:

当部署失败时，Octopus Deploy 如何处理回滚？

在回答这个问题时，首先要记住的是部署是复杂的，与云 PaaS 解决方案不同，Octopus 不会对您可以使用它构建或部署的软件类型施加太多限制。

当部署过程中出现问题时，我们有三种通用的处理方法:

回滚-恢复到使用软件的先前版本
前滚-修复它并部署新版本
翻车-再试一次，也许是一个间歇性的问题

代码/应用程序的自动回滚通常非常简单——只需找到旧的二进制文件，更新 IIS/负载平衡器等。指着旧的二进制文件，你就笑开了。

然而，最难的是持久存储——我指的是数据库。在部署过程中，您可能运行了迁移脚本来重命名列。回滚应用程序后，旧版本的应用程序可能会中断，因为它希望列使用旧名称。这是一个非常简单的模式变化。

一种选择是从备份中恢复数据库。但是数据库可能在部署期间一直在使用，并且您可能在迁移脚本运行和部署失败之间不久收到了一个命令。自动回滚数据库将意味着丢失重要数据。

设计支持回滚的应用程序

在设计应用程序和进行更改时，可以使用一些技术来使应用程序更好地支持回滚。

一种选择是确保您的更改总是向后兼容先前的版本。我们可以在不破坏旧应用程序的情况下改变模式，例如，使用视图。在第三个版本之后，您可能会开始删除旧的列或表。然而，复杂的部分是测试；仅仅假设您的模式更改是向后兼容的是不够的，您真的应该测试它，否则回滚将和不回滚一样糟糕。

另一个可能有帮助的方法是使用架构风格，比如事件源。通过这种方式，你可以用旧代码‘重放’新事件，或者用新代码‘重放’旧事件，理想情况下，应用程序的两个版本都可以工作。

失败的部署应该是例外

不幸的是，作为一个应用程序部署工具，Octopus 不能假设您编写的代码总是支持自动回滚。不能保证自动回滚会让事情变得更好；事实上，这可能会让事情变得更糟。

相反，我们认为当部署失败时，Octopus 应该:

提供尽可能多的信息；和
提供工具来帮助，但而不是去尝试和接管。

毕竟，当生产部署出错时，通常是压力很大的时候——您最不希望的就是有工具对您进行事后批评，让事情变得更糟！

要做到这一点，Octopus 可以很容易地部署以前的版本，或者部署新的版本。只需找到您想要部署的版本，然后单击 deploy。你知道这个版本包含了什么，软件包是如何构造的，所以你可以决定是尝试回滚还是前滚是安全的。对 Octopus 来说，回滚或前滚就像任何正常的部署一样。

在持续部署的世界中失败的部署

Eric Ries 最近推广的一个话题是持续部署，以及集群免疫系统的想法。这个想法是你的系统应该自我监控，如果它检测到一个问题，它可以自动回滚。

重要的是要认识到，Eric 并不提倡使用特定的部署工具来实现这种自动回滚。相反，在设计应用程序时，您需要在系统层面上进行思考。您在出现问题的第一个迹象时透明回滚的能力将更多地取决于您的物理基础架构、数据库和系统设计，而不是您选择的部署工具。

Octopus 确实提供了 API,使得自动部署项目的新老版本成为可能，因此它肯定会在恢复策略中发挥作用。但是没有一种部署工具是万能的；如果这是你的目标，你需要全面考虑你的系统。

部署失败. ps1

虽然 Octopus 永远无法为您从失败的部署中自动恢复，但我很乐意找到让您更容易创建恢复策略的方法。一个建议是部署失败的. ps1 ，如果对特定机器的部署失败，将运行该文件。脚本中会包含什么由您决定，但是支持会在那里。

最后

让我们回到最初的问题:

当部署失败时，Octopus Deploy 如何处理回滚？

简单的答案是，Octopus 使部署以前成功的版本变得容易，或者在解决问题后部署新的版本变得容易。这可以被 API 调用，所以如果你的系统是为它设计的，你可以自动化它。

也就是说，从失败的部署中自动恢复的能力在很大程度上是系统整体的属性，而不仅仅是自动化部署工具的特性。Octopus 有(并将有更多)功能可以提供帮助，但一如既往，这个行业没有灵丹妙药。

了解更多信息

回滚 Kubernetes 部署- Octopus 部署

原文：https://octopus.com/blog/rolling-back-kubernetes-deployment

在部署到 Kubernetes 时，并不是每个部署都像我们希望的那样顺利。bug、容器环境变量和硬件限制可以决定应用程序在部署到 Kubernetes 集群后是否能够运行。当修复不容易或者应用程序没有响应时，您需要回到以前的版本。这个过程称为回滚。

在这篇文章中，我使用 Octopus Deploy 描述了一些通用的和特定于 Kubernetes 的回滚策略。

示例部署流程

本文使用内置的Deploy Kubernetes Containers来部署基于 Java 的 PetClinic 应用程序的容器化版本。

这个应用程序由一个 web 前端和一个 MySQL 后端组成。MySQL 后端也被部署为一个容器，使用 Flyway 将数据库更新作为 Kubernetes 的一项工作来执行。示例流程如下所示:

部署 MySQL 容器
部署 PetClinic web
运行飞行路线作业
验证部署
通知利益相关方

本文假设您熟悉示例流程中的步骤。我只介绍实现这里讨论的策略的更新。

重新部署以前的版本

通过重新部署以前的版本，很容易从失败的部署中恢复。在 Octopus Deploy 中，您只需点击发布，选择发布，然后点击您想要重新部署到的环境旁边的重新部署。

回滚期间有条件地执行步骤

redeploy 方法完全按照第一次部署的方式执行部署，执行流程中的所有步骤。但是，您可能希望在回滚过程中跳过一些步骤，例如数据库步骤。

要跳过这些步骤，您需要确定正在发生什么活动；部署、重新部署或回滚，然后有条件地控制执行哪些步骤。您可能还希望您正在回滚的版本被阻止进入其他环境。

更新后的流程如下所示:

计算部署模式
部署 MySQL 容器(仅在部署模式下)
部署 PetClinic web
运行 Flyway 作业(仅在部署模式下)
验证部署
通知利益相关方
阻止释放进程(仅在回滚模式下)

您会注意到该过程显示了该步骤将在哪些模式下运行。这不是添加条件语句的结果。该流程利用了某个步骤的注释字段，因此您知道在哪些场景中执行了哪些步骤。

计算部署模式

为了确定部署处于哪种模式，我们的团队开发了 计算部署模式 步骤模板。该模板将正在部署的版本号与之前部署到环境中的版本号进行比较，以确定正在发生什么活动。为了方便起见，它还设置了输出变量，这些变量可以用作步骤上的条件。

回滚期间跳过数据库步骤

为了确保 MySQL 和 Flyway 步骤仅在部署期间执行，添加以下来自计算部署模式的输出变量作为变量运行条件:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnDeploy}

阻止发布进展步骤

在 Octopus Deploy 中，阻止发布进程并不新鲜，但是，它需要手动或通过 API 调用来完成。我们的团队开发了**Block Release Progression**步骤模板来阻止指定的发布在部署过程中进行。

为了确保此步骤不会在部署期间运行，请添加以下变量运行条件:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnRollback}

使用 Kubernetes 修订历史回滚

Kubernetes 为 pods 保留了一个滚动修订历史，因此您可以回滚到任何存储的修订(修订的数量可以用默认值 10 进行配置)。命令kubectl rollout history deployment.v1.apps/<deploymentname>列出了 Kubernetes 部署的所有存储修订。

REVISION  CHANGE-CAUSE
1         <none>
2         <none>
3         <none>

您需要修改您的部署过程，以便将一个修订绑定到一个特定的发布。更新后的流程如下所示:

计算部署模式
回滚原因(仅在回滚模式下)
部署 MySQL 容器(仅在部署模式下)
部署 PetClinic web
运行 Flyway 作业(仅在部署模式下)
验证部署
通知利益相关方
回滚到 PetClinic web 的先前版本(仅在回滚模式下)
阻止释放进程(仅在回滚模式下)

让我们来看一下新添加和更新的步骤。

回滚原因

回滚原因是一个 手动干预 步骤，提示您回滚的原因。指定的原因可用于块释放进程步骤中的原因字段。添加变量 run condition，以便它只在回滚期间执行。

部署 PetClinic web

在这一步中，您需要做两处修改

添加一个运行条件，使其仅在部署模式下运行
添加一个部署注释，将发布与修订联系起来

添加运行条件

我们已经看到了如何设置一个可变的运行条件，以便该步骤只在部署期间执行。

添加部署注释

在部署 Kubernetes 容器步骤中，转到部署注释并添加一个注释类型kubernetes.io/change-cause，其值为#{Octopus.Release.Number}

【T2

运行kubectl rollout history deployment.v1.apps/<deploymentname>现在将显示:

REVISION  CHANGE-CAUSE
1         2021.09.23.0
2         2021.09.23.1
3         2021.09.23.2

回滚到 PetClinic web 的先前版本

现在CHANGE-CAUSE列包含了修订版的发布版本，您可以使用 Run a Kubectl CLI Script 步骤来解析部署历史，以确定回滚到哪个版本。

# Init variables
$k8sRollbackVersion = 0
$rollbackVersion = $OctopusParameters['Octopus.Release.Number']
$namespace = $OctopusParameters['Project.Namespace.Name']
$deploymentName = $OctopusParameters['Project.Petclinic.Deployment.Name']

# Get revision history
Write-Host "Getting deployment $deploymentName revision history ..."
$revisionHistory = (kubectl rollout history deployment.v1.apps/$deploymentName -n $namespace)
$revisionHistory = $revisionHistory.Split("`n")

# Loop through history starting at index 2 (first couple of lines aren't versions)
Write-Host "Searching revision history for version $rollbackVersion ..."
for ($i = 2; $i -lt $revisionHistory.Count - 1; $i++)
{
    # Split it into two array elements
    $revisionSplit = $revisionHistory[$i].Split(" ", [System.StringSplitOptions]::RemoveEmptyEntries)

    # Check version
    if ($revisionSplit[1] -eq $rollbackVersion)
    {
        # Record version index
        Write-Host "Version $rollbackVersion found!"
        $k8sRollbackVersion = $revisionSplit[0]

        # Get out of for
        break
    }
}

# Check to see if something was found
if ($k8sRollbackVersion -gt 0)
{
    # Issue rollback
    Write-Host "Rolling Kubernetes deployment $deploymentName to revision $k8sRollbackVersion ..."
    kubectl rollout undo deployment.v1.apps/$deploymentName -n $namespace --to-revision=$k8sRollbackVersion
}
else
{
    Write-Error "Version $rollbackVersion not found in cluster revision history."
}

除了集装箱启动时间，这一行动可以在几秒钟内完成。

结论

使用本文中讨论的策略，您可以在部署过程中直接配置回滚功能，包括部署到 Kubernetes 的应用程序。

观看网络研讨会:Octopus Deploy 的回滚策略

https://www.youtube.com/embed/F_V7r80aDbo

VIDEO

我们定期举办网络研讨会。请参见网络研讨会第页，了解即将举办的活动和实时视频录制的详细信息。

愉快的部署！

回滚 Tomcat 部署- Octopus 部署

原文：https://octopus.com/blog/rolling-back-tomcat-deployment

DevOps 反馈循环通常有自动化的流程来尽可能早地在管道中捕获问题。虽然这些自动化过程允许早期检测，但错误仍然可以找到进入生产代码的途径。一些 bug 非常严重，足以保证退出最近部署的版本。恢复更改的过程称为回滚。

在本文中，我将讨论使用 Apache Tomcat web 服务器时的不同回滚策略。

初始部署流程

这篇文章使用 PetClinic 应用程序部署到 Apache Tomcat web 服务器。PetClinic 应用程序需要一个数据库后端，并使用 Flyway 来执行数据库迁移。

示例流程如下所示:

如果不存在，则创建数据库
部署数据库更改
部署 PetClinic Web 应用程序
验证部署
通知利益相关方

这篇文章假设您熟悉这个部署过程中包含的步骤，并且不会详细介绍每个步骤。

部署以前的版本

使用 Octopus Deploy，您可以通过重新部署应用程序的以前版本来回滚。您只需从 Releases 屏幕中选择以前的版本，然后单击所需环境旁边的 REDEPLOY 按钮。

部署过程中的所有步骤都按照创建发布时的配置执行。对于 Apache Tomcat，将在 Tomcat 服务器上重新提取包，执行变量替换，并在发送到 Tomcat 管理器进行部署之前重新打包。包裹的大小将决定需要多长时间。

简单回滚

如上所述，部署过程中的所有步骤都将像第一次一样重新执行。虽然内置的重新部署方法是有效的，但在执行回滚时，可能会有一些您不想执行的步骤。

如果发布有问题，您通常会回滚。在这种情况下，最好将正在回滚的版本标记为坏的，并阻止它升级到其他环境。要有条件地跳过步骤并将发布标记为坏，需要修改流程:

计算部署模式
如果数据库不存在，则创建数据库(回滚时跳过)
部署数据库更改(回滚期间跳过)
部署 PetClinic Web 应用程序
验证部署
通知利益相关方
阻止发布进度(仅在回滚期间)

在部署步骤中使用 Notes 字段，您可以为这些步骤以及它们将以何种模式运行提供文档。

您会注意到两个新步骤，计算部署模式和阻止发布进度，以及一些应用于现有步骤的条件。让我们更详细地看看这些。

计算部署模式

回滚过程的第一部分是确定它是部署、回滚还是重新部署操作。

我们的团队开发了社区步骤模板 计算部署模式 ，它决定了部署处于哪种模式，并生成了许多包含变量运行条件语法的输出变量(更多详细信息，请参见步骤描述中的文档)。

数据库步骤

如果不存在则创建数据库和部署数据库更改步骤不需要在回滚中运行。需要将它们配置为跳过。来自计算部署模式的RunOnDeploy输出变量可应用于这些步骤的变量运行条件以跳过它们:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnDeploy}

阻止释放进程

阻塞发布进程在 Octopus Deploy 中并不新鲜，但是，它需要通过 UI 或 API 调用来完成。

我们的团队认识到，在处理回滚时，自动化这一活动是至关重要的，并开发了**Block Release Progression**模板，该模板可以自动阻止发布。

此步骤应仅在回滚操作期间运行。使用计算部署模式的以下输出变量作为变量运行条件以确保这一点:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnRollback}

复杂的回滚

内置的和简单的回滚方法都将提取并重新打包.war文件，然后将其交付给 Tomcat 服务器进行部署。如果您的应用程序很大，这可能需要一些时间。使用 Tomcat 并行部署特性，可以在几秒钟内执行回滚。

Tomcat 并行部署

并行部署特性是在 Tomcat version 7 中引入的，它允许您将同一应用程序的多个版本部署到 Tomcat 服务器上。

在应用程序的较新版本处于运行状态后，新会话将在新版本上运行，而现有会话将继续在旧版本上运行，直到它们过期。您需要提供带有上下文路径的版本号。Tomcat 服务器结合了版本号和上下文路径，并将部署的.war重命名为<contextpath>##<version>.war

复杂的回滚过程

要使用并行部署特性实现回滚过程，您需要修改您的过程，如下所示:

计算部署模式
回滚原因(仅在回滚期间)
如果数据库不存在，则创建数据库(回滚时跳过)
部署数据库更改(回滚期间跳过)
在 Tomcat 中停止应用程序(回滚时运行或部署和回滚时运行)
部署 PetClinic Web 应用程序(仅在部署或重新部署期间)
在 Tomcat 中启动应用程序(仅在回滚期间)
验证部署
通知利益相关方
阻止发布进度(仅在回滚期间)

让我们回顾一下为实现这一点而对流程所做的更改。

回滚原因

回滚原因步骤是手动干预，提示您回滚的原因。您指定的原因用于流程中更下一步的块释放进程中的原因字段。此步骤仅在回滚期间运行，因此需要将变量运行条件设置为以下内容:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnRollback}

停止 Tomcat 中的应用程序

停止和启动步骤都使用 Tomcat 步骤中的启动\停止应用。停止步骤在部署模式下是可选的，但在回滚模式下是必需的，因为 Tomcat 会将新会话传送到正在运行的最新版本的部署应用程序。

回滚时，我们需要停止坏的版本，这样以前部署的版本将开始获取会话。

将变量运行条件设置为仅在回滚期间运行:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnRollback}

或者，您可以使用系统变量 Octopus.Release.CurrentForEnvironment.Number来检查是否有先前部署的版本:

#{if Octopus.Release.CurrentForEnvironment.Number}True#{/if}

Tomcat 步骤的高级选项的版本号如下，所选动作为停止应用:

#{Octopus.Release.CurrentForEnvironment.Number}

在 Tomcat 中启动应用程序

在回滚过程中，此过程会停止正在回滚的版本。

您需要一个步骤来启动您要回滚到的版本。在高级选项中为 Tomcat 步骤指定的版本号如下，选择保持应用程序运行:

#{Octopus.Release.Number}

该步骤需要配置为仅使用以下变量运行条件在Rollback Mode中运行:

#{Octopus.Action[Calculate Deployment Mode].Output.RunOnRollback}

部署 PetClinic Web 应用程序

该步骤需要与 Tomcat 步骤中的 Start App 设置相同的高级选项**，为正在部署的版本提供#{Octopus.Release.Number}。(参考 Tomcat 中启动 App 中的图片。)**

阻止释放进程

在简单回滚场景中，块进程的原因字段被静态设置。回滚原因步骤提示您回滚的原因，而注释输出变量可以作为原因的输入，对阻塞释放有更有意义的信息。

修改原因字段以使用来自回滚原因步骤的注释输出变量，如下所示:

#{Octopus.Action[Rollback reason].Output.Manual.Notes}

在 Tomcat 中启用取消部署版本功能会干扰复杂的回滚策略。

在 Tomcat 管理器中，并行部署将与此类似:

T35【

清理旧版本

Octopus Deploy 的保留策略通过删除已部署的旧版本来帮助您的目标保持干净。然而，Tomcat 管理器将.war文件放在它自己的文件夹中，Octopus Deploy 不知道这个文件夹。

如果您没有使用并行部署特性，那么新版本会简单地覆盖.war并部署应用程序。

Tomcat 的并行部署特性将.war重命名为<contextpath>##<version>.war，因此它们是独一无二的。除非对版本化的应用程序条目执行undeploy操作，否则这些文件将继续累积。

为了帮助 Tomcat 维护，我们的团队开发了 通过管理器 取消部署 Tomcat 应用程序，这是一个社区步骤模板，在 Tomcat 服务器上执行取消部署操作，目前在 Bash 语法中可用。

结论

在这篇文章中，我介绍了几种将应用程序部署回滚到 Apache Tomcat web 服务器的方法。我希望这些方法中的一个能在你的 DevOps 之旅中帮助你。

观看网络研讨会:Octopus Deploy 的回滚策略

https://www.youtube.com/embed/F_V7r80aDbo

VIDEO

我们定期举办网络研讨会。请参见网络研讨会第页，了解即将举办的活动和现场直播的详细信息。

愉快的部署！

在 Octopus 部署- Octopus 部署中运行 AWS CLI

原文：https://octopus.com/blog/run-aws-cli-in-octopus-deploy

您是否曾经发现自己处于这样一种情况，您知道您想要自动创建一个对象，或者甚至列出对象并生成一个报告，但是您不想在编程语言之间切换？CLI 为您提供了一种获得 SDK 全部可用性的方法，它们通常在每个系统上运行相同的功能，这意味着您不必为 API 创建包装。

在这篇博文中，我们来看看如何在 Octopus Deploy 中使用 AWS CLI。演示重点是使用 Octopus Deploy 中的运行 AWS CLI 脚本步骤模板创建一个 S3 存储桶。

先决条件

要跟进这篇博文，您应该具备以下条件:

你可以从八达通服务器或八达通云免费开始使用。

创建新项目

在运行任何 AWS CLI 命令或创建步骤之前，您需要配置一个项目，以便有地方创建 AWS CLI 过程和步骤。为此，我们将使用 Octopus CLI 的强大功能。

打开终端并运行以下命令，创建一个添加了适当开关值的新项目:

octo create-project --name AWSCLIDeployments --server=octopus_server_url --apiKey=octopus_server_api_key --projectGroup project_group --lifecycle=lifecycle_name

打开网络浏览器并登录 Octopus 门户网站。您现在应该看到新项目可用:

配置变量

现在项目已经创建，您可以配置项目本身了。首先，我们将配置变量。要使 AWS CLI 步骤模板正常工作，它需要 AWS 帐户是一个变量:

在 Octopus 门户网站中，导航到您刚刚创建的项目，projects➜AWS clideployments。
在项目窗格下，点击变量。
在项目变量内的值下，选择下拉菜单并选择改变类型。
在类型选项下，选择 AWS 账户。
选择一个现有的 AWS 帐户，并为其命名。完成后，点击绿色的 DONE 按钮。
点击绿色的保存按钮，保存项目中的变量。

添加 AWS CLI 步骤

现在已经配置了 AWS account 变量，您可以开始配置 AWS CLI 步骤本身来运行 AWS CLI 命令了。为此，您将创建一个新流程:

在项目概述页面，选择流程:

在 process 页面上，您可以开始添加新步骤，特别是 AWS CLI 步骤。点击添加步骤按钮。
在下选择步骤模板，选择 AWS，在已安装的步骤模板下，选择名为的步骤模板运行 AWS CLI 脚本。找到后，单击该步骤。
在 AWS 工具部分，选择使用与 Octopus 捆绑的 AWS 工具，因为该选项包含我们需要的所有内容:

在 Amazon Web Services 部分，选择您之前创建的AWSAccount变量，并选择 us-east-1 地区:

在该步骤的脚本部分中，选择 inline source code 选项并键入以下代码，这些代码将用于创建 S3 存储桶。您也可以将 bucket 的名称改为您所在的环境。请记住，S3 存储桶名称必须是唯一的:

aws s3api create-bucket --bucket octopusdeploys392 --region us-east-1

输入代码后，点击绿色的保存按钮。

您现在已经准备好运行管道了。

运行管道

现在已经创建了使用 AWS CLI 的步骤，添加了内联代码，您已经准备好开始管道的部署过程了。

在项目下，点击蓝色的创建发布按钮。
要保存发布，点击绿色的保存按钮。
选择要部署到的环境。比如 Dev。
点击绿色的展开按钮，展开将开始。
完成后，您将看到任务摘要，其中完成了 S3 存储桶的创建。

恭喜你。您已经成功地使用 AWS CLI 在 AWS 中创建了 S3 存储桶。

结论

许多 CLI 为您提供了围绕任务执行简单操作的能力，而这些任务在 UI 中可能是复杂或繁琐的。使用 CLI，您仍然可以从编程的角度直接与平台进行交互，以确保您能够自动执行任务。

在这篇博文中，您不仅学习了如何在 Octopus Deploy 中启动并运行项目，还学习了如何配置 AWS CLI 任务以在 AWS 中创建 S3 存储桶。

愉快的部署！

操作手册经验教训和建议- Octopus 部署

原文：https://octopus.com/blog/runbook-recommendations-and-best-practices

当我们第一次发布 Runbooks 时，我有机会创建了一些 Runbooks，我学到了一些可能对你有帮助的经验。

在这篇文章中，我将从头开始创建一本操作手册，并分享我的建议。

定义要解决的问题

在 Octopus，我们使用 AWS 和 Azure 作为我们的基础架构。事实上，在撰写本文时(本文最初发表于 2020 年 11 月)，布里斯班家庭办公室中唯一的基础设施是一个 WiFi 路由器和一个网络交换机。尽管是大量的云用户，我们中的许多人在家里的办公室里运行一个虚拟机管理程序。它让我们可以配置和运行永久虚拟机，如域控制器和 SQL 服务器，以配合 Octopus Deploy 使用。有人帮你设置是一回事，但从头开始设置是完全不同的。

要解决的问题:我有几台 SQL 服务器在运行，我想将每台服务器上的几个数据库备份到我的 NAS 上。

设计操作手册流程

定义问题是第一步。然后，我默认的下一步是向 Octopus Deploy 添加脚本步骤。这已经多次适得其反了，所以首先，我回答这些问题:

用例及需求是什么？有发现吗？
以前试过这个吗？如果是的话，什么有效，什么无效？
runbook 应该在哪里运行？
谁将调用该操作手册，如何调用？
运行操作手册需要批准吗？
应该有通知吗？如果是，他们应该什么时候出门，应该包括哪些信息？如何保持较高的信噪比？
runbook 是特定于项目的吗？还是通用的？
是否有任何需要捕获和保留的信息？保留策略应该是什么？我应该把任何东西推给另一个服务吗？

**推荐:**抓紧时间过一遍类似的题。一点点准备工作会大有帮助。

用例、陷阱和需求

我以前使用库步骤模板 SQL - Backup Database 使用 Octopus Deploy 将数据库备份到我的 NAS。效果还不错。主要问题是库步骤只支持一个数据库。备份多个数据库需要多个步骤，而且该过程需要不断调整。它还使用 SQL 管理对象( SMO ，这意味着我必须安装额外的软件。

基于这一经历，我的要求是:

向现有服务器添加数据库不需要更新 Octopus Deploy。
从过程中排除数据库应该很容易。
备份系统数据库应该是可选的。
在触手之外，运行这个进程的虚拟机不需要任何额外的软件。
向流程中添加新的服务器应该是微不足道的。
执行备份的 SQL Server 用户应该只拥有执行备份的权限。不允许模式更改或写入。
该过程将备份到 NAS，而不是本地硬盘。
该过程应清理一周前的所有备份。

在继续之前，让我们快速检查一下这个 runbook 将运行的脚本。为了解决许多需求，我需要存储配置选项。Octopus Deploy 的一个鲜为人知的特性是能够存储多个行变量值，比如 JSON。像 JSON 这样存储数据允许我定义一个对象供我的脚本使用。您可以在您的实例中通过点击打开编辑器链接来做类似的事情。

编辑器模式窗口允许您选择右上角的文本类型。选择文本类型会在值窗口中突出显示语法，从而更容易查看 JSON 的语法是否正确。

脚本本身并不复杂。对于数组中的每个对象，它将:

连接到服务器
调出数据库列表
排除 DatabasesToExclude 数组中的任何数据库
如果 ExcludeSystemDatabases 为 TRUE，则排除任何系统数据库
清理旧的数据库备份

$backupFolderLocation = $OctopusParameters["Project.Backup.FilePath"]
$backupFileDate = $(Get-Date).ToString("yyyy_MM_dd_HH_mm")
$backupItemList = $($OctopusParameters["Project.Backup.Information"]) | ConvertFrom-Json
$notificationContent = [System.Text.StringBuilder]::new()

foreach ($backupitem in $backupItemList)
{   
    $notificationContent.AppendLine("Server: $($backupItem.Server)")
    $connectionString = "Server=$($backupItem.Server);Database=master;integrated security=true;"    

    try
    {
      $sqlConnection = New-Object System.Data.SqlClient.SqlConnection
      $sqlConnection.ConnectionString = $connectionString

      $command = $sqlConnection.CreateCommand()
      $command.CommandType = [System.Data.CommandType]'Text'
      $command.CommandTimeout = 60000

      $command.CommandText = "select Name from sys.databases"
      $tablesToBackupDataAdapter = New-Object System.Data.SqlClient.SqlDataAdapter $command
      $tablesToBackupDataSet = New-Object System.Data.DataSet

      Write-Host "Opening the connection to $($backupItem.Server)"
      $sqlConnection.Open()

      Write-Highlight "Getting list of databases to backup from $($backupItem.Server)"
      $tablesToBackupDataAdapter.Fill($tablesToBackupDataSet)
      $databaseToBackupList = @()
      foreach ($row in $tablesToBackupDataSet.Tables[0])
      {
          $databaseNameToCheck = $row["Name"]        

          if ($backupitem.DatabasesToExclude -contains $databaseNameToCheck)
          {
              Write-Host "The database $databaseNameToCheck was found in the exclusion list, excluding this database."
              continue
          }

          if ($backupitem.ExcludeSystemDatabases -eq $true -and ($databaseNameToCheck -eq "master" -or $databaseNameToCheck -eq "model" -or $databaseNameToCheck -eq "tempdb" -or $databaseNameToCheck -eq "msdb"))
          {
              Write-Host "The database $databaseNameToCheck is a system database and exclude system databases is set to true, excluding this database."
              continue
          }

          $databaseToBackupList += $databaseNameToCheck
      }    

      Write-Host "The list of databases that will be backed up on $($backupItem.Server) is $databaseToBackupList"
      foreach ($databaseToBackup in $databaseToBackupList)    
      {
          $backupFileName = "$($backupFolderLocation)\$($backupItem.Server.Replace("\", "_"))_$($databaseToBackup)_$($backupFileDate).bak"

          $message = "Backing up $databaseToBackup to $backupFileName"
          Write-Highlight $message
          $notificationContent.AppendLine("    $message")
          $command.CommandText = "BACKUP DATABASE [$($databaseToBackup)]
          TO DISK = '$backupFileName'
             WITH FORMAT;"
          $command.ExecuteNonQuery()

          Write-Host "Backup complete, removing any backups a week old"
          $fileToRemoveList = Get-ChildItem -Path "$($backupFolderLocation)" -Filter "$($backupItem.Server.Replace("\", "_"))_$($databaseToBackup)_*"
          foreach ($fileToRemove in $fileToRemoveList)
          {
              $dateDiff = $(Get-Date) - $fileToRemove.CreationTime
              if ($dateDiff.TotalDays -gt 7)
              {
                  $message = "Removing $($FileToRemove.FullName) because it is $($dateDiff.TotalDays) days old"
                  Write-Host $message
                  $notificationContent.AppendLine("    $message")

                  Remove-Item $fileToRemove.FullName
              }
          }
      }

      $sqlConnection.Close()
    }
    catch
    {
        $notificationContent.AppendLine($_.Exception.Message)
    }

    $notificationContent.AppendLine("")
    $notificationContent.AppendLine("")
}

Set-OctopusVariable -name "NotificationContent" -value $($notificationContent.ToString())

runbook 应该在哪里运行？

runbook 将通过端口1433调用t-sql命令来备份数据库。好消息是 Tentacle 不必直接安装在 SQL Server 上(我们的文档关于为数据库部署安装 Tentacle 和 Workers建议您不要在与 SQL Server 相同的服务器上安装 Tentacle)。

一个要求是执行备份的用户应该只拥有执行备份的权限。此外，几个需求表明这个过程应该易于使用并且维护简单。这些需求通过将触手作为域帐户运行来解决。该域帐户将被分配db_backupoperator和db_datareader 角色。

就像我们的文档推荐的一样，触手在 Octopus Deploy 中注册为工人。我创建了一个新的工人池Database Backup Worker Pool，将这些工人与其他数据库部署工人隔离开来。

**建议:**让工人尽可能靠近目的地。如果你在 Azure 中，在 Azure 虚拟机上运行 Worker。如果您在 AWS 中，有一个 EC2 实例托管一个 Worker。如果您在内部运行，请让一名员工在内部运行。Runbooks 可用于执行非常低级的任务。不必穿越防火墙或配置额外的权限，增加了额外的安全层。此外，它保持低延迟。

调用操作手册

我不想考虑备份；它们应该通过触发器自动发生。需要思考的是 runbook 应该在什么环境下运行。我希望这个操作手册能够同时在所有环境中运行。为了简单起见，我为这个 runbook 创建了一个名为Maintenance的新环境。我可以使用Production,,但这可能会令人困惑，因为它连接到Test环境中的 SQL 服务器。

**推荐:**维护环境可以方便地用于其他跨领域的运行手册。然而，这意味着有一个接触Test和Production环境的过程。对流程进行安全审查，以确保您不会意外地将自己暴露在额外的风险中。

批准和通知

虽然这是一个不干涉的过程，但我想知道错误何时发生。该过程总是在完成时发出一封电子邮件，即使它失败了。将运行条件设置为Always Run可以达到这个要求。

虽然这是不干涉的，但是如果一个人在现实世界的用例中触发了 runbook，那么要求批准是有意义的。幸运的是，在 Octopus 中，批准可以是有条件的，使用可变的运行条件。当一个人调用 runbook 时触发手动干预的语法是#{unless Octopus.Deployment.Trigger.Name}True#{/unless}。变量说，除非一个触发器触发这一点，然后运行这一步。

**建议:**利用可变运行条件和输出变量来帮助实施业务规则。当不符合业务规则时，需要批准；否则，自动批准运行。有条件的自动批准有助于批准者保持较高的信噪比。请参见我在上发布的关于运行特定 SQL 脚本的帖子中的真实示例。

通用操作手册

这是一个通用的操作手册，而不是项目专用的操作手册。特定于项目的操作手册旨在仅用于一个项目。它在具有特定角色的目标上运行。特定于项目的操作手册的一个例子是刷新 web 应用程序的缓存。一些应用程序公开端点来刷新缓存；其他需要应用程序池或 web 服务器重置。或者应用程序可以使用 Redis 作为缓存存储。

**建议:**将相似的通用运行手册归入仅运行手册项目。将这些仅运行手册的项目放入一个独特的项目组。在下面的截图中，每个项目有 1 到 N 个 runbooks。管理程序项目有管理管理程序的操作手册；NAS 项目有用于将文件备份到 NAS 上以及从 NAS 备份到 Azure 文件存储的操作手册。

【T2

日志和保留策略

您可能会注意到该脚本正在捕获日志并设置一个输出变量。该输出变量的内容在结果电子邮件中发送。它还使用 write-highlight 向任务摘要添加文本。

对于我的用例，这就是我需要的所有日志记录和保留策略。由于这种备份每天都在进行，我不需要长时间保留这些日志。我将保留策略从默认值 100 减少到 10。

保留策略会删除审核日志中的运行，但不会删除任务。为了查看运行历史，我使用高级过滤器和日期过滤器找到了审计日志。

**建议:**保留策略按 runbook 配置。仔细检查你公司的审计政策，以确保 Octopus Deploy 不会在应该清理运行之前清理它。

结论

Runbooks 是实现自助开发的绝佳工具。然而，像任何工具一样，它也有可能被误用。我希望这些建议能够帮助您设计可以在 Octopus Deploy 实例中使用的 runbooks。

最后一个建议:不要在筒仓中设计操作手册。如果您是开发人员，请与适当的操作人员合作(反之亦然)。在设计阶段开始合作。协作有助于充实需求，最终您会得到一个每个人都乐于支持的流程。

阅读我们的 Runbooks 系列的其余部分。

愉快的部署！

操作手册最佳实践- Octopus 部署

原文：https://octopus.com/blog/runbooks-best-practices

瀑布、敏捷或极限编程。不管你是实现它们还是同意它们，不可否认的是开发人员总是在寻求优化他们的工作流程。虽然具体的方法不同，但它们都归结为保持高速度和高质量。要实现这一点，你需要自动化。

然而，运营领域并没有像开发人员那样受到青睐，让运营团队去入侵 CI 服务器以实现任务自动化。CI 服务器是为自动化软件开发而构建的，而运营团队永远是次要考虑因素。

通过 runbooks，Octopus 将运营任务提升到了一个顶级概念，为运营团队提供了一个专为其需求而设计的工作流程。

在本帖中，我们将探讨设计操作手册的最佳实践，为运营团队从手动工作流程转向自动化工作流程提供模板。例如，我们创建了一个 runbook 来重启 Azure web 应用程序。

形容

现在是凌晨 1 点，你的寻呼机响了，让你知道你的网站关闭了。你最不想做的事情就是费力地阅读一页页的项目和脚本，以找到解决问题的方法。这使得可发现性对运行手册至关重要。

每个 Octopus 项目都有一个描述字段。runbook 应该利用该字段来记录 runbook 的目标服务以及 run book 解决的问题。描述字段可从主 Octopus 仪表板进行搜索，允许运营和支持人员根据关键字搜索找到合适的项目，而不是对所有可用脚本的死记硬背。

在下面的屏幕截图中，您可以看到示例项目包括几个关键字，如“500”和“Azure Web App ”,它们与 runbook 的预期使用场景相匹配:

在 Octopus dashboard 中搜索这些关键字会返回 runbook 项目:

检查

操作手册的第一步是检查系统的当前状态，以确定它是否降级。

对于我们的示例 runbook，我们将使用运行 Azure PowerShell 脚本步骤向网站发出 HTTP 请求并检查响应代码。HTTP 调用的结果保存在 Octopus 变量TestResult中。

下面的脚本测试 HTTP 响应代码:

[System.Net.ServicePointManager]::SecurityProtocol = [System.Net.SecurityProtocolType]::Tls12;

$status = [int]([System.Net.WebRequest]::Create("https://$Hostname").GetResponse().StatusCode)
Set-OctopusVariable `
  -name "TestResult" `
  -value ($status -eq 200)

Write-Host "Web application returned HTTP status code $status"

收集

为了补充上一步，我们需要收集诊断信息，以便日后确定问题的根本原因。

此处收集的信息也可用于下一步，以便支持人员确定系统是否降级，而不管上一步中返回的 HTTP 响应代码。

下面的脚本捕获 Azure Web App 日志文件，并将其保存为 Octopus 工件:

[System.Net.ServicePointManager]::SecurityProtocol = [System.Net.SecurityProtocolType]::Tls12;

az webapp log download `
    --name MySalesWebApp `
    --resource-group SalesResourceGroup `
    --log-file logs.zip

New-OctopusArtifact "logs.zip"

确认

web 应用程序关闭的原因有很多。例如，内存泄漏和资源高峰可能导致站点不可用，但偶尔仍会返回有效的 HTTP 响应代码。

如果 inspect 步骤未能识别出问题，我们会显示一个提示，询问运行手册是否应该继续，让支持人员有机会运行手动测试或查看在 collect 步骤中检索到的诊断信息，并决定是否继续。

实际上，这个步骤是作为一个手动干预步骤来实现的，该步骤在最后一个步骤中创建的TestResult变量为真的条件下运行(换句话说，如果 inspect 步骤成功地联系了 web 应用程序，因此没有发现问题)。

值得注意的是确认步骤出现的频率。如果手动进行是正常的，这意味着检查步骤不能准确地识别系统的错误状态。准确地确定系统是否降级是自动化该过程的一个重要要求。

整流

纠正步骤是 runbook 的核心，在我们的例子中，Azure web 应用程序就是在这里重启的。这是通过运行 Azure PowerShell 脚本步骤实现的，该步骤调用以下脚本来重新启动 web 应用程序:

az webapp restart

在我们的行业里，时断时续是一个笑话，但这仅仅是因为它非常有效。

核实

验证步骤类似于检查步骤，除了这里实现的检查有望通过校正步骤。

在我们的示例中，verify 步骤进入一个循环，在五分钟内检查 HTTP 状态代码。一旦返回 200 响应代码，我们就认为应用程序正在运行。该步骤的代码如下所示:

[System.Net.ServicePointManager]::SecurityProtocol = [System.Net.SecurityProtocolType]::Tls12;

for ($x = 0; $x -lt 30; ++$x)
{
  $status = [int]([System.Net.WebRequest]::Create("https://$Hostname").GetResponse().StatusCode)
  if ($status -eq 200) {
    exit 0
  }
  Start-Sleep 10
}

# We didn't get a good response in 5 mins, so we failed
exit 1

通知

通知团队的其他成员执行了重启是很有用的。Octopus 有通过几个通信平台发送消息的步骤，这里我们使用了Slack-Send Simple Notification社区步骤来报告每个进行步骤的状态。

下面的文本循环运行操作手册的步骤，并打印它们的状态:

#{each step in Octopus.Step}
StepName: #{step}
Status: #{step.Status.Code}
#{/each}

试验

如果你有一个坏的系统和一个未经测试的手册来修复它，你有两个问题。

部署的环境进展的想法从一开始就是 Octopus 的核心租户，runbooks 可以访问所有相同的环境。正如您在进入生产环境之前部署到测试环境一样，在测试环境中执行操作手册允许流程在用于生产中断之前得到验证。

使自动化

实施前面的步骤意味着您的操作手册可以准确地识别系统何时未按预期工作，纠正问题，并验证系统是否回到了所需的状态。您还将在生产环境之外测试该操作手册。这种方法是专为在操作手册流程中注入高度信心而设计的。

此时，您有能力定期自动触发 runbook。为此，确认步骤被禁用或删除，对剩余步骤使用运行条件#{unless Octopus.Action[Inspect].Output.TestResult}true#{/unless},并根据需要创建一个预定触发器来执行运行手册:

结论

无论您喜欢哪种方法，实现高速度和高质量都需要自动化。本帖中概述的步骤旨在生成一本可以自信地自动运行的运行手册。

可靠地识别系统何时未处于预期状态，纠正问题，验证修复，并在测试环境中验证整个过程，确保您的操作手册与您的软件部署具有相同的质量。

阅读我们的 Runbooks 系列的其余部分。

愉快的部署！

将基础设施用作运营手册代码- Octopus Deploy

原文：https://octopus.com/blog/runbooks-with-infrastructure-as-code

基础设施即代码(IaC)是一种现代的声明性基础设施配置方法。在这篇文章中，我分享了一些关于 Runbooks 如何帮助您以简洁明了的方式管理基础设施安装和拆卸的经验教训。

在准备 Octopus 2020.1 发布网上研讨会时，我需要为我的演示上下旋转基础设施。在 runbooks 之前，我有一个单独的基础设施作为代码项目来处理这个问题。我不想再这样做了，Operations Runbooks 就是根据这种情况设计的。网上研讨会的准备工作使我能够将我的过程移植到一本操作手册上，并且它给了我一个机会来调整我如何在 Octopus Deploy 中处理基础设施代码。

什么是作为代码的基础设施？

基础设施作为代码是一种在文件中建模所需基础设施的方式，通常用 YAML、JSON 或 Hashcorp 语言(HCL)编写。云提供商拥有接收该文件并调配您所请求的基础架构的机制，但每个提供商都有自己的基础架构定义:

使用云提供商提供的工具有其优势；例如，他们通常有一个 UI 来帮助调试。该过程由 CLI 启动，但是当出现问题时，您可以通过用户界面中的日志来查找根本原因。此外，为了帮助学习曲线，它们要么提供示例，要么让您在 UI 中定义所需的基础结构并将其导出到文件中。顺便说一下，这就是我如何创建 ARM 模板。

使用所提供的工具的不利方面是锁定的风险。AWS Cloudformation 的术语不能翻译成 Azure ARM 模板。这就是第三方工具如 Hashcorp 的 Terraform 有用的地方。它们提供了一个通用的框架，可以跨所有云提供商使用。

基础设施作为运行手册之前的代码

在 runbooks 之前，我的基础设施代码流程是一个正常的部署流程，尽管我没有部署任何东西，而是针对云提供商运行脚本。我的过程目标很简单；只有一个项目可以摧毁我的基础设施。

这种方法导致了一些怪癖。首先，我必须创建一个生命周期，因为我正在使用一个部署过程，而部署过程有生命周期。在这个例子中，我有两个环境，Test和Production。然而，我需要一个环境来摧毁一切。这导致了我的第二个怪癖。我需要另一个叫做Teardown的环境。

我的部署过程有点复杂，因为它包括以下步骤:

作用于除Teardown之外的任何环境
范围扩大到Teardown

你会注意到在我的生命周期中Test和Production是可选的。这让我想到了我的下一个怪癖。第一次配置 IaC，无论是对于 AWS CloudFormation，Azure ARM Templates，GCP 部署管理器，还是 Hashicorp 的 Terraform，都需要大量的试错。通常，我在一两次尝试后就创建好了基础设施，但之后的一切都令人头疼。创建了一个虚拟机，但引导脚本遗漏了一些内容。正确测试修复需要拆除和旋转基础设施。有时错误发生在Test而其他时间发生在Production。如果部署真的失败了，我需要一个到达Teardown的方法。因此，Test和Production是可选的。

AWS 区域特定设置

对于本文，我使用 AWS CloudFormation 来启动一个 Ubuntu VM，在该 VM 上安装一个触手，并向 Octopus Deploy 注册触手。在选择 AWS 时，我无意中发现了另一个怪癖:每个地区都是隔离的。绝大多数情况下，资源不能在地区之间共享；这包括:

虚拟机的 SSH 密钥
AMI 图像
子网
安全组

这不是一份包罗万象的清单。

我并不希望每个地区都有一个环境(可扩展性很差)，但是我需要一种方法来进行特定地区的设置，所以我使用了 Octopus Deploy 的多租户功能。租户可以是:

SaaS 应用程序的客户
每个开发人员一个沙箱
数据中心
AWS 区域

我最喜欢的租户特性之一是，每个环境中的每个租户都可以有一个唯一的变量值。这对于数据库连接字符串来说是有意义的，但是在我的 IaC 例子中，这会导致大量的重复值。我不想在Test、Production、Teardown上定义同一个 AMI。幸运的是，可以配置特定于租户的变量，以便在所有环境中使用。

备选方案 1。利用租户标签集

首先，我创建了一个名为AWS Region的租户标签集:

我这样做是因为租户标签的作用域可以是一个变量。您可以通过点击Open Editor链接来访问该变量范围:

这将打开一个模态窗口，让您选择租户标记:

我创建了一个名为AWS的变量集，其中填充了我的 CloudFormation 模板所需的变量:

选项 2。利用变量集变量模板

我选择了选项 1，因为它可以更容易地创建截图并向新用户演示。我发现大多数人看到上面的截图就明白了。它对于显示每个 AWS 区域的差异也很有用。但是，您必须复制租户名称作为租户标记。

另一个选择是利用变量集变量模板。在变量集中，有一个Variable Templates选项卡。首先，添加一个变量模板:

在租户变量屏幕上，您会看到一个Common Templates选项卡。将出现您添加到变量集中的变量模板。加州地区给了我最大的心痛，这就是为什么它有一个阿诺德尖叫加州的图像:

租户必须连接到与变量集相连的项目。

如果我在企业环境中设置 Octopus Deploy，我会使用这个选项。

将部署过程移植到运行手册

我很快意识到我不应该从部署过程直接移植到 runbooks。我需要重新思考如何配置我的 IaC 进程。如前所述，我想要一个单一的进程来启动和关闭我的基础设施。我的基础设施即代码项目的过程反映了这个目标。然而，这个单一的项目目标让我做出了一些次优的配置。

这些次优配置是:

一个Teardown环境的整个概念以及随后的生命周期。
必须确定一个步骤的范围，要么在Teardown中运行，要么在除Teardown之外的所有环境中运行。换句话说，我把两个进程挤成了一个。
那个Teardown环境要求我写脚本同时拆掉Test和Production。
因为我需要同时分解所有东西，所以我的变量范围变得更加复杂。

让我们花一点时间来讨论变量范围，因为它很好地揭示了我的过程中的多个问题。在Test和Production中，虚拟机名称的变量模板遵循以下格式[Application Name]-[Component]-[Environnment Abbreviation]。例如，todo-web-t用于待办应用的 web 服务器。Teardown变量不包括环境缩写。刚好是[Application Name]-[Component]。为所有环境取消注册虚拟机所需的Teardown流程。该注销脚本找到并删除了所有以[Application Name]-[Component]开头的目标。这是一个简单的例子；添加区域变得更加复杂。想出一个不会导致意外删除错误目标的变量模板花了相当多的时间。

拆分流程

我做的第一个改变是将 IaC 过程分成两个操作手册。一个运行手册启动了基础设施，另一个则删除了它。

由于这种分离，我不再需要Teardown环境。这反过来简化了变量。我还了解到我可以将变量的范围扩展到特定的操作手册。这意味着我不会将未使用的变量传递到部署中。换句话说，我可以有简单的变量，它们只用于特定的操作手册:

这个过程也让我更容易理解。我并没有试图将两个过程混为一谈:

房客

我仍然希望保持我的租户按区域配置。然而，我的示例应用程序不是多租户的；它是小号的。NET 核心 web 应用程序运行在 NGINX 与 NoSQL 后端。它不需要任何东西，只需要在一些地区进行拆分。做一些类似金丝雀部署或蓝/绿部署的事情是多余的。

我想要的是:

当我部署测试时，部署到Ohio区域中的服务器。
当我部署到生产环境时，使用滚动部署部署到Ohio、California和Oregon地区的所有服务器:

这是我发现一个项目可能不允许租用部署，但是一个操作手册可以要求它们。在我的项目设置中，我将其设置为禁用租用部署:

但是，我将每个 runbook 设置为需要一个租户:

因为操作手册没有生命周期，所以概览屏幕看起来与您可能习惯的常见项目概览屏幕略有不同:

按计划启动和关闭基础架构

虚拟机需要钱。对于本例，我不需要虚拟机全天候运行。我宁愿让它们只在工作日运行。您可能对您的测试环境有类似的需求。如果没有任何东西在使用虚拟机，为什么要花钱让它们运行呢？

这让我想到了一个小问题。runbooks 的预定触发器允许我选择 1 到 N 个环境:

触发器将启动两个任务，每个任务对应我指定的一个环境。对于两个环境，这并不是什么大问题，但是当我配置另一个示例时遇到了瓶颈，我想要四个环境。正在运行的并发任务的数量将呈指数级增长。我不想让我的任务队列因我的基础设施上下旋转而过载。我的第一个想法是，我可以安排触发间隔 15 分钟。例如:

项目 A 启动Development基础设施:早上 6:00
项目 A 启动Test基础设施:上午 6:15
项目 B 启动Test基础设施:早上 6:30
项目 A 启动Staging基础设施:上午 6:45
项目 A 启动Production基础设施:早上 7:00
项目 B 启动基础设施:上午 7:15

这并不能很好地扩展。尤其是当我添加更多项目时。有时需要 5 分钟来启动基础设施，有时需要 20 分钟，我不想浪费时间等待，但同时，我希望避免任务队列过载。

我需要的是一本操作手册，它可以有序地启动我的所有基础架构。如果你熟悉 JQuery 承诺，本质上我想把我的承诺串起来。一次运行一本操作手册，完成后，开始下一本。

一个 runbook 启动另一个 run book 没有内置的步骤，所以我写了这个步骤模板。现在，我可以让一本操作手册有条不紊地在我的基础架构上运行。我把那本手册叫做Unleash the Kraken:

我有两个预定的触发器，一个用来启动一切，另一个用来摧毁一切。您会注意到拆除触发器每天都在运行，而旋转触发器只在周末运行。这只是以防任何基础设施在周末启动:

结论

从使用部署流程构建基础设施到使用操作手册，有一些变化。总的来说，我对这些变化感到高兴，一切都感觉干净了许多。

关于 runbooks，我最喜欢的部分是不必为每次运行创建一个版本。为了让我的 CloudFormation 模板和 bootstrap 脚本正确，我不得不在成功之前做了大量的运行。不用跳释放舞感觉很好。

在基于 Windows 的 Docker 容器中运行 SQL Server Developer-Octopus Deploy

原文：https://octopus.com/blog/running-sql-server-developer-install-with-docker

在开发机器上运行 SQL Server 是自动化数据库部署的一个关键部分。通常，在本地运行 SQL Server 是通过安装 SQL Server Developer edition 来完成的。这样做的缺点是 SQL Server Windows 服务需要一直运行，这会消耗资源，安装程序会添加一堆额外的应用程序，开发人员负责升级它。

有可能两全其美吗？在本地运行 SQL Server，但仅在需要时运行，并使其易于升级？很长一段时间以来，SQL Server 一直是 Docker 映像，看起来它可以解决这些令人头痛的问题。真正的问题是，建立起来有多难？在本文中，我旨在回答这个问题，并帮助您让 SQL Server 在 Docker 容器中运行。

基于 Windows 的容器

我从大学开始就一直在 Windows 上开发。我知道 Linux 的核心概念，但我绝不是专家。同时学习 Linux 和 Docker 是一件很困难的事情。Docker 提供了运行基于 Linux 和 Windows 的容器的能力。微软为 SQL Server Developer Edition 提供了一个基于 Windows 的容器，所以为了让学习更容易，我将在本文中使用这个容器。

准备工作

本文假设您对 Docker 有一定的了解。如果你不熟悉 Docker 的核心概念，我鼓励你阅读 Docker 概述页面。

我的笔记本电脑运行的是 Windows 10 专业版。我将使用 Docker 桌面，有时被称为 Docker for Windows。在我开始使用 Docker 之前，需要做一些准备工作。

启用 CPU 虚拟化

归根结底，Docker 是一个虚拟化主机。就像任何其他虚拟化主机一样，CPU 必须支持虚拟化，并且必须启用该功能。通常情况下，虚拟化是在 BIOS 中启用的，这意味着您必须在 Google 上搜索如何在您的计算机制造商的 BIOS 中启用它。英特尔称他们的虚拟化技术为英特尔 VT ，以及英特尔 VTx。AMD 称他们的虚拟化技术为 AMD V ，有时你会看到它被称为 VDI 或 SVM。

安装 Docker for Windows

在快速 BIOS 更新之后，是时候安装 Docker Desktop 了，它包括 Docker Compose 和 Docker CLI。安装 Docker for Windows 的整个过程被很好地记录了下来。无需在此重复。

有一点要注意，如果你没有启用 Hyper-V，安装程序会为你启用它。那将需要重新启动计算机。

如前所述，我将使用基于 Windows 的容器。安装 Docker 桌面后，我需要切换到 Windows 容器。右键单击任务栏中的 Docker 桌面图标并选择Switch to Windows containers...即可完成。

设置文件夹以与 Docker 容器共享

默认情况下，Docker 将所有容器视为无状态的。预计对容器所做的任何更改(如创建数据库)都将被销毁。这个问题可以通过利用 Docker 中的卷来解决。我在硬盘上建立了一个文件夹 C:\Docker\Volumes 来存储这些卷。

值得注意的是，如果我将这些作为基于 Linux 的容器运行，我需要遵循 Docker 文档中列出的关于共享驱动器的步骤。

防病毒配置

运行 Windows 容器的一个缺点是(除了空间开销之外)，反病毒软件可能会阻止它们下载。发生这种阻塞是因为 Docker 在 Windows 文件系统上存储图像的方式。实际上，另一个名为 Windows 的文件夹将出现在一个看似随机的位置。当反病毒扫描仪发现它们时。确保您使用的是最新版本的防病毒软件。如果你不得不将C:\ProgramData\Docker排除在扫描之外，不要感到惊讶。

配置 SQL Server 开发人员容器

启动并运行一个容器很容易，甚至是 SQL Server。我想将它用于实际的开发工作，这意味着我需要解决以下问题:

无需额外配置即可启动并运行容器。
通过 SSMS 连接到它。
持久化在容器中创建的数据库。
保存映像配置供他人使用。

首次运行 SQL Server Developer 容器

这份清单看起来令人望而生畏，尤其是如果你是 Docker 的新手。我想一步一步来。首先，让我们运行一个简单的命令，从 Docker Hub 下载 SQL Server Windows 开发人员映像:

docker pull microsoft/mssql-server-windows-developer

如果你是一步一步地跟着做，沏些茶或咖啡，然后坐下来，因为这可能需要一段时间来完成。它不仅下载该映像，还下载所有的依赖项。

既然已经下载了映像，现在是启动它并运行一些 SQL 脚本的时候了。幸运的是，微软添加到 Docker Hub 的文档让这变得很容易。请记下正在发送的--name参数。该参数将使以后的工作更加容易。在命名实例的同时，我将端口设置为默认的 SQL Server 端口，1433:

docker run --name SQLServer -d -p 1433:1433 -e sa_password=Password_01 -e ACCEPT_EULA=Y microsoft/mssql-server-windows-developer

从主机上的 SSMS 连接到容器

SQL Server 容器正在运行，但是我们如何从主机通过 SSMS 连接到它呢？在 run 命令中，我使用了开关-p，它是 publish 的缩写。本质上，端口 1433 被发布给主机，这意味着我们可以通过localhost访问它。要将 SSMS 连接到我的 Docker SQL Sever，我需要做的就是输入localhost，以及上面定义的用户名/密码sa。

就像普通的 SQL Server 一样，一切都按预期运行。我可以毫无问题地创建一个数据库和表格。

持久化在容器中创建的数据库

如果容器需要重启会怎么样？

docker stop SQLServer
docker start SQLServer

重启后，数据库和所有表仍然存在。

如果需要重新创建容器呢？通常，这是在容器配置更改或发布新版本时完成的。除了stop命令，我还需要运行rm命令来删除容器:

docker stop SQLServer
docker rm SQLServer
docker run --name SQLServer -d -p 1433:1433 -e sa_password=Password_01 -e ACCEPT_EULA=Y microsoft/mssql-server-windows-developer

在这种情况下，所有数据库都被删除了。

我们需要一种持久化数据的方法来处理容器的重启和容器的重建。

数据库文件需要持久化。这是使用卷完成的，将指向C:\Docker \Volumes\SQLServer。还有多，多篇关于 Docker 卷。TL；DR；就是把--volume开关加到docker run来加一个卷。如果容器已经在运行，则需要在添加卷之前将其销毁:

docker stop SQLServer
docker rm SQLServer
docker run --name SQLServer -d -p 1433:1433 --volume c:\Docker\Volumes\SQLServer:c:\SQLData -e sa_password=Password_01 -e ACCEPT_EULA=Y microsoft/mssql-server-windows-developer

所有数据库创建命令都需要指定C:\SQLData\作为数据的目录。假设我希望这个 SQL Server 容器托管 Octopus Deploy 和 TeamCity 的数据库。这些命令是:

CREATE DATABASE [OctopusDeploy]
 CONTAINMENT = NONE
 ON  PRIMARY
( NAME = N'OctopusDeploy', FILENAME = N'C:\SQLData\OctopusDeploy.mdf' , SIZE = 8192KB , FILEGROWTH = 65536KB )
 LOG ON
( NAME = N'OctopusDeploy_log', FILENAME = N'C:\SQLData\OctopusDeploy_log.ldf' , SIZE = 8192KB , FILEGROWTH = 65536KB )
GO
CREATE DATABASE [TeamCity]
 CONTAINMENT = NONE
 ON  PRIMARY
( NAME = N'TeamCity', FILENAME = N'C:\SQLData\TeamCity.mdf' , SIZE = 8192KB , FILEGROWTH = 65536KB )
 LOG ON
( NAME = N'TeamCity_log', FILENAME = N'C:\SQLData\TeamCity_log.ldf' , SIZE = 8192KB , FILEGROWTH = 65536KB )
GO

毫无疑问，数据库创建成功。

它们现在显示在主机系统的目录中。

这些数据库的名称和路径可以使用attach_dbs环境变量传递给容器。可以使用 PowerShell 脚本引导所有这一切。对于本文，我没有这样做，因为我只需要创建数据库一次。我看不出花费精力写一个脚本来解决一个我只需要做一次的问题有什么意义。

docker stop SQLServer
docker rm SQLServer
$attachDbs = "[{'dbName':'OctopusDeploy','dbFiles':['C:\\SQLData\\OctopusDeploy.mdf','C:\\SQLData\\OctopusDeploy_log.ldf']},{'dbName':'TeamCity','dbFiles':['C:\\SQLData\\TeamCity.mdf','C:\\SQLData\\TeamCity_log.ldf']}]"
docker run --name SQLServer -d -p 1433:1433 --volume c:\Docker\Volumes\SQLServer:c:\SQLData -e sa_password=Password_01 -e ACCEPT_EULA=Y -e attach_dbs=$attachDbs microsoft/mssql-server-windows-developer

现在，当重新创建容器时，这些数据库被装载。

在 Docker Compose 中保存配置

到目前为止，我一直在大量使用命令行，特别是docker stop、docker rm和docker run。老实说，我一直在复制和粘贴上面的命令，而不是重新键入它们。一种选择是利用 Docker Compose 。Docker 容器配置存储在 YAML 文件中，而不是脚本文件中。

version: '3.7'
services:
  SQLServer:
   image: microsoft/mssql-server-windows-developer
   environment:
     - ACCEPT_EULA=Y
     - SA_PASSWORD=Password_01   
     - attach_dbs=[{'dbName':'OctopusDeploy','dbFiles':['C:\\SQLData\\OctopusDeploy.mdf','C:\\SQLData\\OctopusDeploy_log.ldf']},{'dbName':'TeamCity','dbFiles':['C:\\SQLData\\TeamCity.mdf','C:\\SQLData\\TeamCity_log.ldf']}]
   ports:
     - '1433:1433'
   volumes:
     - c:\Docker\Volumes\SQLServer:c:\SQLData

我将 docker-compose 文件保存在硬盘上 C:\Docker 文件夹中:

然后我在 PowerShell 中运行了这个命令:

Set-Location C:\Docker
docker-compose up -d

我得到了同样的结果。我更喜欢用这个，因为它更容易阅读，因此也更容易修改。跑起来也很轻松。

结论

让 SQL Server 在 Docker 中运行比我想象的要容易得多。我期待着一小时又一小时的工作，但最终，我在一小时内就完成了一些工作。公平地说，这不包括对 Docker 如何工作的研究。我的希望是这篇文章给了你足够的指导，让你自己深入 Docker，并意识到它并没有那么大和可怕。也许，仅仅是也许，您将使用 Docker 在您的开发机器上托管 SQL Server，而不是安装 SQL Server Developer。

下次再见，愉快的部署！

运行任务上限和高可用性- Octopus 部署

原文：https://octopus.com/blog/running-task-cap-and-high-availability

很快我们将推出 Octopus:高可用性(HA)版。五月份，Damian 写了一篇关于高可用性旨在支持的类场景的文章。最近，Shane 一直在将 Octopus 服务器推向极限，以确保节点分配负载并找到瓶颈。为了准备高可用性，我们正在做一些改变，这将使管理 Octopus 服务器工作负载更容易。

Typical Octopus HA setup

首先，快速回顾一下:在 Octopus: HA 中，负载均衡器在多个 Octopus 服务器之间分配请求。每个 Octopus 服务器处理 web 请求，但也会执行后台任务(比如部署和健康检查)。Octopus 服务器的背后是共享存储——一个共享的 SQL Server 数据库和一个用于任务日志、工件和 NuGet 包的共享文件系统。

部署速度与延迟

Octopus 服务器在部署期间做了大量的工作，主要是围绕包的获取:

下载软件包(网络绑定)
验证包哈希(受 CPU 限制)
计算程序包之间的增量(I/O 和 CPU 限制)
上传软件包到触须(网络绑定)
监控触角的工作状态，并收集日志

当执行非常大的部署时(许多大的包分发到数百台机器上)，很明显，在某个时候，硬件将会限制一台 Octopus 服务器可以同时做多少这样的事情。如果服务器过量使用并达到这些限制，超时(网络或 SQL 连接)将开始发生，部署可能开始失败。

当然，Octopus: HA 通过拥有多个 Octopus 服务器来帮助解决这个问题。注意，共享存储实际上并不是部署过程中的瓶颈——在部署过程中受影响更大的是 Octopus 服务器上的本地硬件。

理想的情况是 Octopus 服务器能够执行尽可能多的并行部署，同时保持在这些限制之下。实际上，这很难预测。我们尝试了各种实验，试图通过查看系统指标来告诉我们是否应该继续消耗新任务，或者退出，但是很难可靠地做到这一点。现在可能有大量的 CPU/内存/I/O 可用，所以我们又选择了一个任务，突然，我们正在运行的其他任务开始了一个需要在数百台机器上运行的步骤，突然，我们又一次超负荷了。

为了让这种“自动调整”方法发挥作用，我们意识到我们需要不断地重新调整并行运行的任务数量。如果部署 A 突然窃取所有 CPU 来计算 SHA1 散列，部署 B 可能需要等待一会儿才能继续。有各种方法可以在这里工作——为某些活动指定专用的工作线程，或者调节执行并行活动的线程。至少最终会是美好而公平的，就像这样:

Tasks running in parallel, but slowly

乍一看，好像比这个好吧？

Tasks running sequentially, overall taking longer, but each one completing faster

我们在这条路上走得越多，我们就意识到这是错误的权衡——我们冒着降低部署速度的风险，只是为了尝试并行执行更多部署。鉴于 Octopus 是一个部署自动化工具，部署期间的停机时间是一个重要的考虑因素！如果您在 10 台机器上进行生产部署，我们希望它们快速完成，而不是因为其他人排队部署而慢慢退出。我们应该牺牲整体延迟来换取速度。

运行任务上限

到目前为止，我们想到的最简单、最可靠的方法是限制一个节点上一次可以运行的任务数量，并使其可由用户配置。为了管理这一点，我们有一个新的设置，您可以在每个节点的基础上进行配置。

Mockup

这个运行任务上限将被设置为一个默认值，您可以将它提高或降低到任何适合您的值。这可能不是一个“智能”的解决方案，但是考虑到在更多的场景中部署速度可能比并发性更重要，我认为这是一个很好的权衡。该设置将基于每个节点，也可用于非 HA 设置。

服务器排水

这个设置还免费提供了另一个功能。当需要重新启动 Octopus 服务器或安装 Windows 更新时，能够优雅地关闭服务器并允许其他节点来收拾残局是很好的。

为此，我们需要:

停止运行任何新排队的任务，但让已经运行的任务继续运行，直到它们完成
继续处理 web 请求
从池中删除服务器
一旦流量不再流向服务器，并且所有正在运行的任务都已完成，请停止服务并应用任何更改

相同的运行任务上限设置可用于执行这种“消耗”——我们需要做的就是将其设置为 0！已经在运行的任务将继续运行，但排队的任务将保持排队状态，除非另一台服务器将它们取走。

Selenium 系列:对 BrowserStack - Octopus Deploy 运行测试

原文：https://octopus.com/blog/selenium/17-running-tests-against-browserstack/running-tests-against-browserstack

这篇文章是关于创建 Selenium WebDriver 测试框架的系列文章的一部分。

到目前为止，我们的测试仅限于 Chrome 和 Firefox 等桌面浏览器。根据您运行的操作系统，您也可以测试 Safari、Internet Explorer 和 Edge 等浏览器。但是不管你运行的是哪种操作系统，都没有简单的方法来测试所有流行的浏览器。Windows 不支持 Safari，MacOS 不支持 Internet Explorer 和 Edge，Linux 也不支持这些浏览器。虽然可以在桌面或服务器环境中模拟移动浏览器，但这样做很难配置和维护。

为了解决这些问题，BrowserStack 之类的服务提供了针对大量浏览器运行 WebDriver 测试的能力，包括桌面和移动浏览器。通过管理各种操作系统、浏览器和移动设备，BrowserStack 这样的服务使得大规模跨浏览器测试变得非常容易。

BrowserStack 不是免费服务，要利用它的大部分功能，你需要为一个帐户付费。幸运的是，Mozilla 和微软都与 BrowserStack 合作，提供针对 Edge 和 Firefox 浏览器的免费测试。我们将利用这个服务来构建一些可以免费运行的远程测试。好消息是，一旦你在 Edge 或 Firefox 这样的浏览器上运行了测试，重用这些代码来运行 BrowserStack 提供的任何其他浏览器的测试都是非常简单的。

要创建 BrowserStack 帐户，请前往https://www.browserstack.com。在主页或顶部菜单中，您会看到注册免费试用的链接。

输入您的电子邮件地址、密码和姓名，并继续下一页。

仅此而已。您现在有一个 BrowserStack 帐户。

为了连接到 BrowserStack，我们需要获取访问密钥。这可以通过点击Account菜单并选择Settings找到。

您将在 Automate 标题下找到访问键。记下Username和Access Key，因为我们稍后将需要这些值。

为了对 BrowserStack 远程运行测试，我们需要创建一个RemoteDriver类的实例。与ChromeDriver或FirefoxDiver不同的是，RemoteDriver被设计用来控制远程服务器上的浏览器。这意味着我们需要给RemoteDriver一个 URL 来发送命令和凭证。

https://www.browserstack.com/automate/java 的 BrowserStack 文档显示了我们需要连接的 URL。它的格式是:https://<username>:<password>@hub-cloud.browserstack.com/wd/hub。用户名和密码嵌入在 URL 中。

为了使测试能够在 BrowserStack 上运行，我们将创建一个名为BrowserStackDecorator的新装饰器:

package com.octopus.decorators;

import com.octopus.AutomatedBrowser;
import com.octopus.decoratorbase.AutomatedBrowserBase;
import com.octopus.exceptions.ConfigurationException;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.remote.RemoteWebDriver;
import java.net.MalformedURLException;

import java.net.URL;

public class BrowserStackDecorator extends AutomatedBrowserBase {

  private static final String USERNAME_ENV = "BROWSERSTACK_USERNAME";
  private static final String AUTOMATE_KEY_ENV = "BROWSERSTACK_KEY";

  public BrowserStackDecorator(final AutomatedBrowser automatedBrowser) {
    super(automatedBrowser);
  }

  @Override
  public void init() {
    try {
      final String url = "https://" +
        System.getenv(USERNAME_ENV) + ":" +
        System.getenv(AUTOMATE_KEY_ENV) +
        "@hub-cloud.browserstack.com/wd/hub";
      final WebDriver webDriver = new RemoteWebDriver(new URL(url), getDesiredCapabilities());
      getAutomatedBrowser().setWebDriver(webDriver);
      getAutomatedBrowser().init();
    } catch (MalformedURLException ex) {
      throw new ConfigurationException(ex);
    }
  }
}

因为将密码嵌入到应用程序中被认为是不好的做法，所以我们将从环境变量中获取用户名和密码。用户名将在BROWSERSTACK_USERNAME环境变量中找到，而密码将在BROWSERSTACK_KEY环境变量中找到。我们将为这些字符串创建常量，以便稍后在代码中访问它们:

private static final String USERNAME_ENV = "BROWSERSTACK_USERNAME";
private static final String AUTOMATE_KEY_ENV = "BROWSERSTACK_KEY";

接下来，我们构建允许RemoteDriver联系 BrowserStack 服务的 URL。我们使用对System.getenv()的调用从环境变量中获取用户名和密码:

final String url = "https://" +
  System.getenv(USERNAME_ENV) + ":" +
  System.getenv(AUTOMATE_KEY_ENV) +
  "@hub-cloud.browserstack.com/wd/hub";

在RemoteDriver类的构造和类似ChromeDriver的类之间只有很小的区别。

RemoteDriver()构造函数获取要连接的服务的 URL 和所需的功能。

对于RemoteDriver类，没有类似于ChromeOptions的等价类；它直接使用DesiredCapabilities对象:

final WebDriver webDriver = new RemoteWebDriver(new URL(url), getDesiredCapabilities());

如果我们构造的 URL 无效，就会抛出一个MalformedURLException。我们捕获这个异常，并将其包装在一个名为ConfigurationException的未检查异常中:

catch (MalformedURLException ex) {
  throw new ConfigurationException(ex);
}

ConfigurationException类用于指示所需的环境变量尚未配置:

package com.octopus.exceptions;

public class ConfigurationException extends RuntimeException {
  public ConfigurationException() {

  }

  public ConfigurationException(final String message) {
    super(message);
  }

  public ConfigurationException(final String message, final Throwable ex)
  {
    super(message, ex);
  }

  public ConfigurationException(final Exception ex) {
    super(ex);
  }
}

建造RemoteDriver只是故事的一半。因为RemoteDriver是远程服务所公开的任何浏览器的通用接口，所以我们将想要测试的浏览器的细节定义为所需的 capabilities 对象中的值。BrowserStack 有一个在线工具，可以在https://www.browserstack.com/automate/capabilities生成这些所需的功能设置。您选择所需的操作系统、设备或浏览器以及一些其他设置，如屏幕分辨率，该工具将生成可用于填充DesiredCapabilities对象的代码。

我们将首先针对 Windows 10 中提供的 Edge 浏览器进行测试。

这些期望的功能设置将在一个名为BrowserStackEdgeDecorator的新装饰器中定义:

package com.octopus.decorators;

import com.octopus.AutomatedBrowser;
import com.octopus.decoratorbase.AutomatedBrowserBase;
import org.openqa.selenium.remote.DesiredCapabilities;

public class BrowserStackEdgeDecorator extends AutomatedBrowserBase {

    public BrowserStackEdgeDecorator(final AutomatedBrowser  automatedBrowser) {
        super(automatedBrowser);
    }

    @Override
    public DesiredCapabilities getDesiredCapabilities() {
        final DesiredCapabilities caps = getAutomatedBrowser().getDesiredCapabilities();

        caps.setCapability("os", "Windows");
        caps.setCapability("os_version", "10");
        caps.setCapability("browser", "Edge");
        caps.setCapability("browser_version", "insider preview");
        caps.setCapability("browserstack.local", "false");
        caps.setCapability("browserstack.selenium_version", "3.7.0");
        return caps;
    }
}

为了将这两个新的装饰器结合在一起，我们在工厂中创建了一种新型的浏览器。

注意，在构建AutomatedBrowser实例来运行 BrowserStack 中的测试时，我们不使用BrowserMobDecorator类。BrowserMob 只对运行在本地机器上的浏览器可用，因为它被绑定到 localhost 接口上的一个端口，这意味着它不会像那些运行在 BrowserStack 平台上的浏览器那样暴露给外部浏览器。为了避免给远程浏览器配置他们无权访问的本地代理，我们将BrowserMobDecorator类排除在装饰链之外。

在这里，我们嵌套装饰器的顺序很重要。BrowserStackDecorator期望在嵌套装饰器中设置期望的功能，在本例中是BrowserStackEdgeDecorator。这意味着BrowserStackDecorator必须将BrowserStackEdgeDecorator传递给它的构造函数，而不是相反:

package com.octopus;

import com.octopus.decorators.*;

public class AutomatedBrowserFactory {

  public AutomatedBrowser getAutomatedBrowser(String browser) {

    // ...

    if ("BrowserStackEdge".equalsIgnoreCase(browser)) {
      return getBrowserStackEdge();
    }

    if ("BrowserStackEdgeNoImplicitWait".equalsIgnoreCase(browser)) {
      return getBrowserStackEdgeNoImplicitWait();
    }

    throw new IllegalArgumentException("Unknown browser " + browser);

  }

  // ...

  private AutomatedBrowser getBrowserStackEdge() {
    return new BrowserStackDecorator(
      new BrowserStackEdgeDecorator(
        new ImplicitWaitDecorator(10,
          new WebDriverDecorator()
        )
      )
    );
  }

  private AutomatedBrowser getBrowserStackEdgeNoImplicitWait() {
    return new BrowserStackDecorator(
      new BrowserStackEdgeDecorator(
        new WebDriverDecorator()
      )
    );
  }
}

现在我们可以在测试中使用这个新的浏览器。请注意，我们不是从本地磁盘访问 HTML 文件，而是打开 URLhttps://s3 . amazonaws . com/web driver-testing-website/form . HTML，这是我们在之前的帖子中在 S3 上传的文件的 URL。

如果我们尝试对本地文件运行测试，就会失败。这是因为远程浏览器试图打开的 URL 看起来类似于file:///Users/username/javaproject/src/test/resources/form.html(取决于您的本地操作系统)。运行远程浏览器的操作系统上不存在该文件，因为远程浏览器运行在由 BrowserStack 管理的操作系统上。任何加载该文件的尝试都会失败:

@Test
public void browserStackTest() {

    final AutomatedBrowser automatedBrowser =
            AUTOMATED_BROWSER_FACTORY.getAutomatedBrowser("BrowserStackEdge");

    final String formButtonLocator = "button_element";
    final String formTextBoxLocator = "text_element";
    final String formTextAreaLocator = "textarea_element";
    final String formDropDownListLocator = "[name=select_element]";
    final String formCheckboxLocator = "//*[@name=\"checkbox1_element\"]";

    final String messageLocator = "message";

    try {
        automatedBrowser.init();

        automatedBrowser.goTo("https://s3.amazonaws.com/webdriver-testing-website/form.html");

        automatedBrowser.clickElement(formButtonLocator);
        assertEquals("Button Clicked", automatedBrowser.getTextFromElement(messageLocator));

        automatedBrowser.populateElement(formTextBoxLocator, "test text");
        assertEquals("Text Input Changed", automatedBrowser.getTextFromElement(messageLocator));

        automatedBrowser.populateElement(formTextAreaLocator, "test text");
        assertEquals("Text Area Changed", automatedBrowser.getTextFromElement(messageLocator));

        automatedBrowser.selectOptionByTextFromSelect("Option 2.1", formDropDownListLocator);
        assertEquals("Select Changed",  automatedBrowser.getTextFromElement(messageLocator));

        automatedBrowser.clickElement(formCheckboxLocator);
        assertEquals("Checkbox Changed",  automatedBrowser.getTextFromElement(messageLocator));

    } finally {
        automatedBrowser.destroy();
    }
}

运行该测试将生成如下异常:

org.openqa.selenium.WebDriverException: Invalid username or password
(WARNING: The server did not provide any stacktrace information) Command
duration or timeout: 1.81 seconds Build info: version: '3.11.0',
revision: 'e59cfb3', time: '2018-03-11T20:26:55.152Z' System info:
host: 'Christinas-MBP', ip: '192.168.1.84', os.name: 'Mac OS X',
os.arch: 'x86_64', os.version: '10.13.4', java.version:
'1.8.0_144' Driver info: driver.version: RemoteWebDriver at
sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at
sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
at
sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:423) at
org.openqa.selenium.remote.ErrorHandler.createThrowable(ErrorHandler.java:214)
at
org.openqa.selenium.remote.ErrorHandler.throwIfResponseFailed(ErrorHandler.java:166)

这是因为我们没有用 BrowserStack 用户名和密码设置环境变量。要将这些环境变量添加到测试中，点击 IntelliJ 中包含配置的下拉列表，并点击Edit Configurations...

在 Configuration 选项卡下，您会看到一个名为Environment Variables的字段。单击该字段右侧的按钮。

在对话框中输入环境变量，并保存更改。点击OK按钮两次保存更改。

这一次，测试将成功运行。您可以通过登录 BrowserStack 并点击产品➜自动化链接来查看测试运行情况。默认情况下，显示最后一次测试。右边的屏幕将向您显示针对远程浏览器正在运行的测试，或者如果测试已经完成，它将提供测试的录制视频。

试用 BrowserStack 帐户通常可以获得 100 分钟的免费时间，但由于 BrowserStack 和微软之间的合作关系，这些时间不会被针对 Edge 运行的测试所消耗。

既然我们有能力在 Edge 浏览器上运行测试，那么开始在 BrowserStack 提供的任何其他浏览器上运行测试就非常简单了。我们将在下一篇文章中看到这一点，届时我们将对作为 BrowserStack 服务的一部分提供的移动设备进行测试。

这篇文章是关于创建 Selenium WebDriver 测试框架的系列文章的一部分。

Selenium 系列:在移动设备上运行测试- Octopus Deploy

原文：https://octopus.com/blog/selenium/18-running-tests-on-mobile-devices/running-tests-on-mobile-devices

这篇文章是关于创建 Selenium WebDriver 测试框架的系列文章的一部分。

到目前为止，我们的测试仅限于桌面浏览器，但是如果没有测试移动浏览器的方法，任何测试策略都是不完整的。移动浏览器测试是 BrowserStack 等服务的主要功能之一。使用我们在桌面浏览器上开发和运行的相同代码，在各种各样的移动浏览器上运行测试是非常容易的。

让我们看看如何在三星 Galaxy Note 8 移动设备上测试 Chrome。

首先，我们需要构建所需的 capabilities 对象来指示 BrowserStack 对 Samsung 设备运行测试。如前所述，我们可以通过在https://www.browserstack.com/automate/capabilities提供的表格获得这些细节。

$C:\2713f257ba961d58a8316e44e3691666$

然后我们获取这些设置，并使用它们来构建一个名为BrowserStackAndroidDecorator的新装饰器类:

package com.octopus.decorators;

import com.octopus.AutomatedBrowser;
import com.octopus.decoratorbase.AutomatedBrowserBase;
import org.openqa.selenium.remote.DesiredCapabilities;

public class BrowserStackAndroidDecorator extends AutomatedBrowserBase {
  public BrowserStackAndroidDecorator(final AutomatedBrowser automatedBrowser) {

  super(automatedBrowser);

  }

  @Override
  public DesiredCapabilities getDesiredCapabilities() {

    final DesiredCapabilities caps = getAutomatedBrowser().getDesiredCapabilities();

    caps.setCapability("os_version", "7.1");
    caps.setCapability("device", "Samsung Galaxy Note 8");
    caps.setCapability("real_mobile", "true");
    caps.setCapability("browserstack.local", "false");

    return caps;
  }
}

然后我们在AutomatedBrowserFactory中使用这个类:

package com.octopus;

import com.octopus.decorators.*;

public class AutomatedBrowserFactory {

  public AutomatedBrowser getAutomatedBrowser(String browser) {

  // ...

  if ("BrowserStackAndroid".equalsIgnoreCase(browser)) {
      return getBrowserStackAndroid();
  }

  if ("BrowserStackAndroidNoImplicitWait".equalsIgnoreCase(browser)) {
      return getBrowserStackAndroidNoImplicitWait();
  }

  throw new IllegalArgumentException("Unknown browser " + browser);

  }

  // ...

  private AutomatedBrowser getBrowserStackAndroid() {
    return new BrowserStackDecorator(
      new BrowserStackAndroidDecorator(
        new ImplicitWaitDecorator(10,
          new WebDriverDecorator()
        )
      )
    );
  }

  private AutomatedBrowser getBrowserStackAndroidNoImplicitWait() {
    return new BrowserStackDecorator(
      new BrowserStackAndroidDecorator(
        new WebDriverDecorator()
      )
    );
  }
}

然后，我们可以在测试中使用这个新的AutomatedBrowser实例:

@Test
public void browserStackAndroidTest() {

  final AutomatedBrowser automatedBrowser =
    AUTOMATED_BROWSER_FACTORY.getAutomatedBrowser("BrowserStackAndroid");

  final String formButtonLocator = "button_element";
  final String formTextBoxLocator = "text_element";
  final String formTextAreaLocator = "textarea_element";
  final String formDropDownListLocator = "[name=select_element]";
  final String formCheckboxLocator = "//*[@name=\"checkbox1_element\"]";
  final String messageLocator = "message";

  try {
    automatedBrowser.init();

    automatedBrowser.goTo("https://s3.amazonaws.com/webdriver-testing-website/form.html");

    automatedBrowser.clickElement(formButtonLocator);
    assertEquals("Button Clicked", automatedBrowser.getTextFromElement(messageLocator));

    automatedBrowser.populateElement(formTextBoxLocator, "test text");
    assertEquals("Text Input Changed", automatedBrowser.getTextFromElement(messageLocator));

    automatedBrowser.populateElement(formTextAreaLocator, "test text");
    assertEquals("Text Area Changed", automatedBrowser.getTextFromElement(messageLocator));

    automatedBrowser.selectOptionByTextFromSelect("Option 2.1",
    formDropDownListLocator);
    assertEquals("Select Changed", automatedBrowser.getTextFromElement(messageLocator));

    automatedBrowser.clickElement(formCheckboxLocator);
    assertEquals("Checkbox Changed", automatedBrowser.getTextFromElement(messageLocator));
  } finally {
    automatedBrowser.destroy();
  }
}

如果我们运行这个测试，可能会再次生成关于无效凭据的异常。如果您还记得，我们之前将 BrowserStack 凭证定义为环境变量，但是我们只针对单个测试这样做。将这些变量添加到每一个新的测试配置中会很繁琐，所以要将这些环境变量添加到所有测试中，我们需要为 IntelliJ 运行的所有 JUnit 测试配置默认设置。

点击配置下拉列表并选择Edit Configurations...

$C:\164b6a7a999aea368f833df845efd42f$

这一次，我们没有将环境变量添加到单个测试的配置中，而是将它们添加为任何 JUnit 配置的缺省值。

展开左侧的Defaults菜单，选择JUnit选项，将BROWSERSTACK_USERNAME和BROWSERSTACK_KEY添加到Environment variables中。

$C:\5f0645e9d5db5ef6ccd5390caacfd309$

您可能需要删除运行测试时创建的 JUnit 配置。这将在左侧菜单中的JUnit选项下找到。选择配置，然后单击减号按钮。

$C:\fd113ade73cde35a8d343177545f4022$

当您再次运行单元测试时，IntelliJ 将创建一个新的 JUnit 配置，这将使用默认值填充环境变量。

再次运行测试，将创建一个新的 BrowserStack 会话，可通过点击 BrowserStack 中的产品➜自动化进行查看。该测试将在三星移动设备上运行。

在大量设备上运行我们的测试的能力显示了 WebDriver 是多么的灵活。通过几个简单的装饰器，我们可以配置我们的测试在 BrowserStack 支持的数百个设备上运行。但是在编写跨桌面和移动浏览器的测试时，我们仍然需要注意一些边缘情况，在下一篇文章中，我们将看到一个例子，我们需要解决环境之间的一些差异。

这篇文章是关于创建 Selenium WebDriver 测试框架的系列文章的一部分。

针对 Octopus - Octopus Deploy 部署的云基础架构运行手动测试

原文：https://octopus.com/blog/running-tests

今年悉尼 NDC 会议期间出现的一个问题是，如何针对以前在各种环境中的部署运行 UI 测试。测试不一定是部署过程的一部分，但是可以手动运行或者按照单独的时间表运行。尽管不是这样的部署，但从 Octopus 运行测试将会很方便，因为 Octopus 拥有关于应用程序部署位置的所有信息。

所以从高层次来看，问题是这样的:

将应用程序部署到环境中。
部署会产生一个 URL。
在部署完成后的某个时间点，开始对最后一次部署进行 UI 测试。

为了演示这个用例，我们将首先向 AWS 部署一个 CloudFormation 模板，它创建一个带有公共 IP 地址的 EC2 实例。EC2 实例将运行 Tomcat 来模拟可测试的 web 服务器。

下面的 YAML 文件可以和Deploy an AWS CloudFormation template步骤一起使用来启动一个安装了 Tomcat 8 的 Ubuntu 实例。

AWSTemplateFormatVersion: 2010-09-09
Parameters:
  InstanceTypeParameter:
    Type: String
    Default: m3.medium
    AllowedValues:
      - t1.micro
      - t2.nano
      - t2.micro
      - t2.small
      - t2.medium
      - t2.large
      - m1.small
      - m1.medium
      - m1.large
      - m1.xlarge
      - m2.xlarge
      - m2.2xlarge
      - m2.4xlarge
      - m3.medium
      - m3.large
      - m3.xlarge
      - m3.2xlarge
      - m4.large
      - m4.xlarge
      - m4.2xlarge
      - m4.4xlarge
      - m4.10xlarge
      - c1.medium
      - c1.xlarge
      - c3.large
      - c3.xlarge
      - c3.2xlarge
      - c3.4xlarge
      - c3.8xlarge
      - c4.large
      - c4.xlarge
      - c4.2xlarge
      - c4.4xlarge
      - c4.8xlarge
      - g2.2xlarge
      - g2.8xlarge
      - r3.large
      - r3.xlarge
      - r3.2xlarge
      - r3.4xlarge
      - r3.8xlarge
      - i2.xlarge
      - i2.2xlarge
      - i2.4xlarge
      - i2.8xlarge
      - d2.xlarge
      - d2.2xlarge
      - d2.4xlarge
      - d2.8xlarge
      - hi1.4xlarge
      - hs1.8xlarge
      - cr1.8xlarge
      - cc2.8xlarge
      - cg1.4xlarge
    Description: Enter instance size. Default is m3.medium.
  AMI:
    Type: String
    Default: ami-ea9b6597
    Description: AMI Image
Resources:
  InstanceSecurityGroup:
    Type: AWS::EC2::SecurityGroup
    Properties:
      GroupDescription: Enable SSH access via port 22, and open web port 8080
      SecurityGroupIngress:
      - IpProtocol: tcp
        FromPort: '22'
        ToPort: '22'
        CidrIp: '0.0.0.0/0'
      - IpProtocol: tcp
        FromPort: '8080'
        ToPort: '8080'
        CidrIp: '0.0.0.0/0'
  Ubuntu:
    Type: 'AWS::EC2::Instance'
    Properties:
      ImageId: !Ref AMI
      InstanceType:
        Ref: InstanceTypeParameter
      KeyName: DukeLegion
      SecurityGroups:
        - Ref: InstanceSecurityGroup
      Tags:
        -
          Key: Name
          Value: Ubuntu with Tomcat
      UserData:
        Fn::Base64: |
          #cloud-boothook
          #!/bin/bash
          sudo apt-get update
          sudo apt-get install -y tomcat8
          sudo service tomcat8 start
Outputs:
  PublicIp:
    Value:
      Fn::GetAtt:
      - Ubuntu
      - PublicIp
    Description: Server's PublicIp Address

下面是章鱼里的步骤截图。

运行这个步骤会导致新 EC2 实例的公共 IP 被保存为一个变量。在该步骤生成的日志输出中，您可以看到文本Saving variable "Octopus.Action[Deploy Tomcat].Output.AwsOutputs[PublicIp]"，它记录了如何访问该变量。

这样的变量在后续步骤中很容易消耗。但是在这个用例中，我们希望在以后访问这些变量，而不是作为当前部署的一部分。

为了演示使用从以前的部署中生成的 URL 运行测试，我们将创建第二个 Octopus 项目。该项目将包含以下 Powershell 的单个脚本步骤。这个脚本利用 Octopus 客户端库来查询部署的细节。

虽然在这个例子中这段代码是在 Octopus 中运行的，但是如果需要的话，它也可以在外部运行。只是要确保提供$ServerUrl、$ApiKey和$OctopusParameters["Octopus.Environment.Name"]变量的替代变量，因为这些变量是由 Octopus 提供的。

[Reflection.Assembly]::LoadFrom("Octopus.Client\lib\net45\Octopus.Client.dll")

$endpoint = new-object Octopus.Client.OctopusServerEndpoint($ServerUrl, $ApiKey)
$repository = new-object Octopus.Client.OctopusRepository($endpoint)

$project = $repository.Projects.FindByName("Deploy EC2 Tomcat");
$env = $repository.Environments.FindByName($OctopusParameters["Octopus.Environment.Name"]);
$progression = $repository.Projects.GetProgression($project);
$item = $progression.Releases |
    % { $_.Deployments.Values } |
    % { $_ } |
    ? { $_.EnvironmentId -eq $env.Id } |
    Sort-Object -Property CompletedTime -Descending |
    Select-Object -first 1

$deployment = $repository.Deployments.Get($item.DeploymentId);
$variables = $repository.VariableSets.Get($deployment.ManifestVariableSetId);
$publicIp = $variables.Variables |
    ? {$_.Name.Contains("Octopus.Action[Deploy Tomcat].Output.AwsOutputs[PublicIp]")}  |
    Select-Object -first 1

Write-Host "$($publicIp.Name) $($publicIp.Value)"

invoke-webrequest "http://$($publicIp.Value):8080" -DisableKeepAlive -UseBasicParsing -Method head

注意，我们已经加载了代码为[Reflection.Assembly]::LoadFrom("Octopus.Client\lib\net45\Octopus.Client.dll")的 Octopus 客户端库。这个 dll 文件已经被 Octopus 2018.8 中的一个新特性暴露了，这个特性就是允许在一个脚本步骤中包含额外的包。我们利用这一点来下载Octopus.Client包并将其解压缩，这样我们的 Powershell 代码就可以加载 dll 了。

项目中定义了$ServerUrl和$ApiKey变量。您可以从文档中找到关于生成 API 密钥的更多信息。

为了方便起见，您可能希望能够在任何时候针对任何环境运行该脚本。典型的 Octopus 生命周期包括在投入生产之前通过测试和内部环境进行部署。当运行一个测试时，你可能想直接在生产中运行它。

为了实现这一点，我们创建了一个包含所有环境的单一阶段的生命周期。这意味着部署过程可以以任何顺序针对任何环境。

在下面的截图中，我们有名为Standard Lifecycle的应用程序部署生命周期和名为Standard Lifecycle Unrestricted的测试生命周期。请注意，无限制的生命周期将所有环境都放在一个阶段中。

您可以在文档中找到关于生命周期的更多信息。

这种不受限制的生命周期的效果是，您会得到一个要部署到的环境的下拉列表。

在这一点上，我们可以在任何时候针对任何环境部署测试脚本。Powershell 代码将询问最后一次部署，以找到 EC2 实例的 IP 地址，并将其用作测试的目标。

这是一个简单的例子，展示了如何获取以前的部署细节来运行一个简单的网络测试。但是你还可以做更多的事情。一些例子可能是:

使用不同地区的工人池来模拟来自国际客户的连接测试。
使用预定触发器运行自动化测试。
使用步骤条件生成松弛时间或电子邮件通知，以报告测试中的任何错误。

安全模式更新——数据库交付地狱——Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-1-delivery-hell

这篇博客文章是关于安全模式更新系列文章的第 1 部分。本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

构建更好的系统:

为了理解为什么有必要做出改变，反思一下我们现在的处境是很有用的。提前道歉，这可能会让你读起来不舒服。

“这需要改变数据库。”

听到这些话，IT 人常常不寒而栗。多年的经验告诉他们，要将那个功能投入生产，将会是一场艰苦的战斗。

这种末日即将来临的感觉有几个原因。为了好玩，我要借用但丁的一点艺术许可证。(声明一下，我完全是从吉安卢卡·萨托里那里偷来的这个想法——他在的推特上，你可以去看看他的极其时髦的数据库“地狱”谈话。)

0 级:数据地狱

数据库面临的独特挑战是数据。关键业务信息没有保存在源代码控制中，所以不可能像删除一个有问题的 web 服务器那样删除和重新部署数据库。

因此，数据库回滚并不容易。可以说，没有数据库回滚这样的事情。如果生产部署出现问题，可能需要恢复备份。这将导致停机和(可能的)数据丢失。这对您的用户来说可能是一场灾难，对企业来说成本高昂。

但这不仅仅是一个关于生产的故事。开发/测试数据库很少有真正有代表性的数据。因此，bug 和性能问题通常只能在生产中发现。此外，如果无法在“类似生产”的环境中可靠地模拟部署，就很难测试数据丢失或部署脚本执行不佳的情况。

当我们未能在开发/测试环境中提供有代表性的安全测试数据时，当我们未能在部署中测试数据问题时，我们就不尊重我们的数据。这种罪恶是有后果的。

第一级:依赖地狱

“数据库”常常成为无数依赖系统的共享后端服务。久经沙场的工程师已经痛苦地认识到，改变模式可能会对那些依赖系统产生意想不到的后果。当工程师甚至不知道他们依赖的系统是什么时，他们不可能对变化有信心。不幸的是，这些依赖性很少被很好地记录或测试。

当数据库之间的依赖性突然出现时，这尤其糟糕，例如，通过存储过程、视图或(令人不寒而栗的)链接服务器。最差的违规者甚至可能看到他们的开发、测试和生产环境之间的依赖性。

由于所有的依赖性，开发/测试环境非常难以供应和维护，这一事实加剧了生产部署问题。

在理想的情况下，开发/测试环境通常是可任意处理的专用环境，开发人员可以为每个新的开发任务开发和丢弃这些环境。然而，考虑到构建大型或复杂的数据库通常需要的时间和精力，开发/测试服务器通常由大型团队共享，这使得变更控制变得困难，并且使得孤立地测试变更变得不可能。

这些共享的开发/测试“狂野西部”的垃圾箱火灾很快变得与生产系统不一致。因此，它们不能被信任为生产的真实表现，并且在它们上面进行的任何开发/测试工作从根本上来说是不可靠的。

第二级:全球失败地狱

模式部署本身尤其危险，因为由于依赖关系，数据库已经成为如此多服务的单点故障。一个被遗忘的 WHERE 子句或消耗性能的游标可能会产生全球性的后果。

如上所述，由于依赖性的复杂性，很少有适合目的的测试环境。此外，为每个依赖的服务建立一个可靠的自动化测试套件是不太可能的，也是不可行的。这使得在执行部署时不可能确信没有任何东西会被破坏。

这些问题是真实而重大的。在凤凰计划中的一次大规模部署失败中，前三个级别被很好地联系在一起。单点故障数据库中的一个巨型表上有一个缺失的索引，它位于一个错综复杂的依赖关系网络的中心。这可能是因为开发/测试数据库与生产不匹配，或者因为它们没有代表性的数据，所以没有发现性能问题。

更新运行得极其缓慢，而且无法取消。他们错过了停机时间，并且由于大量的相关服务，当系统在周一早上没有恢复在线时，他们对数千名内部用户和客户造成了巨大的中断。

我将用一个真实的灾难来支持这个虚构的灾难。我曾经为一家公司工作，该公司有一个支撑其开发环境的狂野西部、单点故障、共享数据库。对于 100 多名开发人员来说，用真实的数据测试他们正在开发的东西是至关重要的。有一次，有人不小心删除了所有的 SQL 登录。整个开发功能以及相关的服务都被封锁了。DBA 花了一周多的时间来修复它，因为与此同时，生产中出现了一个大问题。

所有那些开发人员都闲荡了一个星期。我很紧张地想象着一个超过 100 人的财务部门开发团队的典型年度预算是什么样的，但我想股东们不会喜欢一周的闲扯。

第三关:释放协同地狱

如果您只是部署数据库变更，那就已经够糟了。但是，由于存在依赖性，您可能还需要同时或按特定顺序部署一组相关系统的新版本。整个过程需要精心安排，一个部分的问题可能会危及整个工作。

糟糕的源代码控制实践和共享环境的使用加剧了这个问题。在这种情况下，要发布的变更可能需要从开发/测试数据库中存在的更大的变更集中挑选出来。这一过程通常是手动的，需要更大的复杂性，并且更有可能出错。它也可能在源代码控制中涉及到非常复杂或者不切实际的简单分支模式。这两种情况都会带来复杂性、风险和偏头痛。我在我的个人博客上更详细地谈论了这个话题。

当依赖对象/系统的发布需要仔细编排时，这是一个信号，表明您正遭受代码中的依赖噩梦的组合，以及您的团队/项目管理结构。团队拓扑更详细地讨论了这些问题。

第四级:停机窗口地狱

由于上述所有的依赖性和协调工作，您需要将整个系统脱机一段时间来完成更新。与用户/客户/ “业务”协商停机时间并不容易，所以你被迫在非社交时间做这件事。你可能没有完全清醒，也不太可能得到支持。(写代码的开发人员可能睡着了！)如果你错过了截止日期，后果自负。

更糟糕的是，由于您只能在有限的停机时间内完成工作，因此您面临着额外的压力，需要在每个时间内交付尽可能多的变更。部署变得更大、更复杂、更危险。

这个地狱的一个变种是由关于 100%正常运行时间的天真的业务假设引起的。100%的正常运行时间实际上是不可能的，也是难以想象的昂贵。高层管理人员往往没有意识到这一点。由于沟通不畅，技术人员经常被置于绝望的境地，被荒谬的期望所衡量。这导致了令人沮丧的政治活动和糟糕的决策。

第五关:官僚地狱

考虑到对单一后端数据库的任何更改都可能影响到的人数，以及失败的严重后果，许多利益相关者希望否决部署。工程师不得不花费和他们实际做测试一样多的时间来证明他们已经做了测试。

尽管这种充分的谨慎听起来很明智，但如果实施不当，通常是无效的。(而且几乎总是执行不好)。)高层领导不太可能接受较慢的工作节奏。因此，如果变更的测试/批准措施导致了延迟，那么结果将是大量的“在制品”(WIP)。这导致了更大、甚至更复杂的部署，带来了更多的依赖性和协调问题。

据 Accelerate 报道，来自 DevOps 报告的数据表明，变更咨询委员会平均“比根本没有变更批准流程更糟糕”。尽管初衷是好的，但这些安全措施导致了更复杂、更危险的恶魔部署。

第 6 关:不服从官僚地狱

在按时发布的压力下，并通过个人愿望来完成一项工作，工程师们试图绕过官方流程。中层管理者玩弄政治来保护他们团队的变化。人们篡改真相以避免官僚主义。影子 IT 的出现是因为使用官方认可的系统是令人沮丧的乏味，阻碍了团队按时完成任务的能力。

高级管理人员甚至可能支持和祝贺这样的“创新”，而不承认他们正在促成一个大泥球。这种短期进步通常是以长期表现为代价的。

第七关:疏忽地狱

随着企业越来越不顾一切地在越来越紧张的预算上完成越来越不可能的最后期限，投资任何与狭窄和具体的目标没有直接关系的东西变得越来越困难。起初，这可能不是那么糟糕。它把精力集中在最重要的工作上。然而，这不可避免地导致关键基础设施投资不足。

借用凤凰项目中的“四类工作”术语:这是 IT 人员在完成“业务项目”和“计划外工作”的巨大压力下，没有时间关注“内部项目”甚至例行“变更”(如修补服务器)。

正如我的英国同事可能会说的，高级经理变得“因小失大”。改进工作甚至日常维护都被推迟或废弃。消防成为家常便饭。该团队已经停止了积极的改进工作。他们没时间了。

一个常见的工程后果是短视的欺骗，以避免重构或删除数据库中的任何内容。如果您从不事后清理，数据库部署肯定会更容易。

你不应该删除数据库中的东西，这种想法在科技界很普遍，需要受到挑战。这种黑客认为你的 IT 基础设施中最重要的部分是你过去几年所有过时的或被误导的设计选择的垃圾场。这可能会在短期内为你节省一点时间，但它会咬人。重构是软件开发的重要部分。

我曾经在一家公司工作，那里所有的表格都有难以理解的四字名称。我问这是为什么。显然，几十年前的一些数据库技术有这种限制。他们当前的 RDBMS 并没有受到这种限制，但是他们非常害怕做出改变，以至于一些开发人员仍然坚持四字符约定——甚至对于新表也是如此。如果所有的表在 IDE 中整齐排列，看起来一定很漂亮。

这个数据库对于许多重要的服务来说是至关重要的，但是使用和维护它几乎是不可能的，尤其是对于新员工来说。没有人知道“QACD”或“FFFG”表是干什么用的。这些 5 表连接是不可能破译的。

随着软件和业务需求的发展，如果不重构我们的数据库，我们肯定会产生庞大的数据库，这些数据库很难使用，并且充满了(应该是)废弃的代码和不必要的依赖。

这是一张去…的单程票

第八关:技术性债务奇点

“计划外的工作”吞噬了一切。

随着业务水平不断下降，获得越来越多的技术债务，每个工程师花在救火上的时间比例也在增加。最终，这一比例达到 100%，甚至更高，工程师们为了维持核心运营而加班加点。一个短视的解决办法可能是雇佣更多的人，但那是行不通的。Frederick Brooks 在 1975 年的神话人月中解释了原因！时隔近半个世纪，我不打算在本帖中浪费更多的文字重复他的观点。如果你在 IT 行业工作，并且你没有听说过它，我建议你点击上面的链接。

不幸的是，问题仍在恶化。几乎没有时间做新的东西。我们已经到了深渊的底部。某种变化是不可避免的。要么企业会改变想法，要么他们输给更有能力的竞争对手只是时间问题。

以我的经验来看，每一级都会把人们推向下一级。它们相互加强。对于那些身处困境的人来说，这些问题就像西西弗斯的巨石，只不过这块巨石随着时间的推移变得越来越大、越来越重。达到顶峰，甚至保持目前的势头，一天比一天更不可能。

有些东西必须放弃。

无论你在旅途中的什么地方，认清你的轨迹并在必要时选择不同的道路是至关重要的。等得越久，就越难逃脱。而且，如果那些有权力实施变革的人不改变他们的思维方式，逃跑肯定是不可能的。

下次

下一篇文章(第 2 部分)将是四篇文章中的第一篇，旨在帮助人们重新评估他们在复杂 IT 系统中看待和评估安全的方式。我们将开始想象一个更安全的软件架构、交付过程和开发文化会是什么样子。在继续讨论弹性、健壮性和松散耦合的概念之前，我们将从探索复杂系统中失败的本质开始。

本系列其他文章的链接如下:

批判现有系统:

想象更好的系统:

构建更好的系统:

观看网络研讨会

我们的第一次网络研讨会讨论了松耦合架构如何带来可维护性、创新性和安全性。第二部分讨论了如何将一个成熟的系统从一种架构转换到另一种架构。

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统

VIDEO

愉快的部署！

安全模式更新-弹性与稳健的 IT 系统- Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-2-resilience-vs-robustness

这篇文章是我的安全模式更新系列的第 2 部分。

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

构建更好的系统:

在第 1 部分中，我们回顾了与对数据库管理和设计的传统态度相关的常见的恶性循环。在接下来的几篇文章中，我们将探索一些重要的理论概念，这些概念有助于解释为什么最规避风险的组织通常会创建最危险的数据库。我们还会想象一个更安全的数据架构和开发文化会是什么样子。

在我们对为什么一些系统比其他系统更可靠有了更深的理解之后，我们将讨论团队可以做出的一些技术改变，这些改变应该导致显著更好的数据库可靠性和改进的业务成果，以及更人性化的工作条件。

在这篇文章中，我们回顾了软件系统中弹性和健壮性的概念。以下是我最喜欢的关于这种差异的简短表述:

“在过去的十年里，人们对构建具有三个特征的弹性系统进行了大量讨论:

低 MTTR 【平均恢复时间】，这是因为对监控良好的故障场景进行了自动补救。
由于分布式和冗余环境，在故障期间影响较小。
将故障视为系统中正常情况的能力，确保自动和手动补救措施得到良好记录、扎实设计和实施，并集成到正常的日常操作中。

请注意，重点不在于消除故障。没有故障的系统虽然健壮，但也会变得脆弱。当故障发生时，更有可能的情况是响应团队毫无准备，这可能会极大地增加事故的影响。此外，可靠但脆弱的系统可能会导致用户期望比 SLO *【服务水平目标】*所指示的更高的可靠性，而这正是服务设计的目标。这意味着，即使没有违反 SLO，当停机发生时，客户也可能会非常不安。"

来自数据库可靠性工程Laine Campbell 和 Charity Majors。

我敢肯定，任何阅读本文的数据库管理员都会想到停机让一些利益相关者恼火的时候，即使从技术上讲，他们的 SLO 从未被违反。(假设他们首先有一个定义明确的 SLO。)

在深入研究坎贝尔和梅杰斯的评论之前，反思复杂系统中失败的本质是有价值的。为此，DevOps、 Safety 2.0 、站点可靠性工程(SRE)和数据库可靠性工程(DRE)运动中的许多人参考了 Richard Cook 的简短学术著作: 复杂系统如何失败 。

但在此之前，有必要区分真正“复杂”的系统和仅仅“复杂”的系统。

复杂系统与复杂系统

复杂的系统很难理解，但是只要有足够的努力和耐心，它们是可以理解的，结果是可以预测的。例如，加密算法很复杂。虽然我知道关于公钥加密如何工作的高级基础知识，但我不会假装熟悉具体的算法或它们的源代码。然而，我意识到，如果有足够的时间和技术能力，阅读文档并准确理解他们如何以可预测的方式加密和解密我们的数据是可能的。

复杂系统是不同的——它们是不可预测的。例如，预测天气就很复杂。我们可以进行各种测量，并将数字输入超级计算机，但即使有最精确的数据和算法，气象预测也永远不能保证。我们的测量和算法只是近似的，还有一些我们还没有完全理解的元素。因此，提前一个月准确预测天气实际上是不可能的。(尤其是我生活的地方——英国！)

根据定义，任何包含人类的系统都是复杂的，而不是复杂的。人类还没有创造出一个能够准确预测人类决策的系统。自由意志要么很难，要么不可能通过计算建模——我已经感觉自己掉进了一个哲学兔子洞。我的观点是，如果你的 it 系统依赖于人类来维护、更新或修复它，你的 IT 系统从定义上来说就是复杂的。这是因为人类是你系统的必要组成部分，人类是复杂的生物。

这还是在我们考虑在第 1 部分中提到的许多缺乏文档记录或理解的依赖关系之前。任何没有 100%准确和最新文档的系统(根据定义)都是复杂的，因为不可能真正理解和预测单一变化的后果。由于我还没有遇到一个完整记录的大规模 IT 系统，我还没有看到一个可以被归类为复杂的，而不是复杂的。

理解复杂系统中失败的本质

希望标题复杂系统如何失败现在传达了一个更具体的想法。库克说的不是可预测的系统。根据定义，他说的是包含不可预测元素的系统，就像大多数(可能是所有)企业级 IT 系统一样。

也就是说，他主要写的是医院(他工作的地方)，以及其他高风险、复杂的环境，如航空业或军队。如果您是一名 IT 专业人员，认为失败的后果对您的 IT 系统影响很大，想象一下您是一名飞行员、伞兵或外科医生。

一个行动要成功，很多事情都要做好。手术室需要正确准备，所有必要的设备需要在正确的时间处于正确的位置，一群高素质的专业人员需要作为一个团队履行职责，以高标准，在紧张的条件下，经常解决意想不到的问题，并在进行中做出字面上的生死决定。

当事情进展不顺利时，我想“无可指责的验尸”这句话会让人感觉特别痛苦。我希望这是一个特别重要的实践。

虽然 it 故障很少导致生命损失，但任何有经验的 IT 专业人员都会阅读复杂系统如何失败，并本能地理解它适用于企业 IT，就像它适用于任何医院、客机或战舰一样。

复杂系统如何失败 大约是 10 分钟的阅读，在我看来，它应该是任何计算机科学学生或 it 专业人员的必读之作。在文章中，库克强调了成熟复杂系统中常见的 18 个具体的、可测量的属性:

复杂系统本质上是危险系统。
复杂系统成功地抵御了失败。
灾难需要多次失败，单点失败是不够的。
复杂的系统包含潜在的变化的故障组合。
复杂系统以降级模式运行。
灾难总是近在眼前。
事故后归因于“根本原因”从根本上来说是错误的。
事后诸葛亮会使事故后对人的表现的评估产生偏差。
人类操作员有双重角色:生产者和防止失败的捍卫者。
所有从业者的行为都是赌丨博。
尖端的行动解决了所有的歧义。
人类从业者是复杂系统中适应性强的元素。
人类在复杂系统中的专业知识是不断变化的。
变化带来了新形式的失败。
对“原因”的看法限制了对未来事件防御的有效性。
安全是系统的特性，而不是系统组件的特性。
人们不断创造安全。
无故障操作需要有失败经验。

请记住，这些是特指不可预测的复杂系统，比如假想的数据库及其来自前一篇文章的依赖项。

深呼吸，然后再读一遍那张单子。这些观察对接下来的事情很重要。

我不打算为这些说法辩护或辩解。我也不打算在这方面做更多的阐述——库克自己做得很好，我不会因为重复这个练习而增加太多价值。我会接受它们，并假设它们是真的。如果你还没有准备好迈出这一步，我建议你在继续之前先完整阅读一下 复杂系统如何失败 。

接下来的讨论是关于我们如何能够并且应该对这些关于我们的 IT 系统中故障的本质的观察做出反应。

为什么弹性 IT 系统比强健的 IT 系统更安全

DevOps 运动通常被认为是 20 世纪 70 年代和 80 年代日本汽车制造业产生的精益思想的演变。然而，可以说，尤其是在最近几年，DevOps 将同样多的遗产归功于由库克及其同时代人开创的安全 2.0 运动。

与汽车制造和供应链管理不同，安全 2.0 是在 20 世纪 90 年代和 21 世纪初在医疗保健领域开发的。安全 2.0 是一种管理哲学，旨在培养库克在复杂系统如何失败中描述的各种复杂系统中的“安全文化”。

是时候给出另一个定义了，这个定义无耻地抄袭了其他人的优秀作品:

大多数人认为安全是指没有事故和事件(或可接受的风险水平)。从这个角度来看，我们称之为安全-I，安全被定义为一种尽可能少出错的状态。“安全第一”的方法假设事情出错是因为特定组件的可识别的故障或失灵:技术、程序、人类工人以及他们所在的组织。因此，人类——单独或集体行动——主要被视为一种责任或危险，主要是因为他们是这些因素中最易变的。Safety-I 中事故调查的目的是确定不良后果的原因和促成因素，而风险评估的目的是确定其可能性。安全管理的原则是当某件事情发生或被归类为不可接受的风险时做出反应，通常通过试图消除原因或改善障碍，或两者兼而有之。

[...]

至关重要的是，安全第一的观点并没有停下来考虑为什么人类的表现几乎总是正确的。事情不顺利，不是因为人们按照他们应该做的去做，而是因为人们能够并且确实调整他们的行为来适应工作环境。随着系统不断发展并引入更多的复杂性，这些调整对于保持可接受的性能变得越来越重要。因此，安全改进的挑战是理解这些调整——换句话说，理解尽管不确定性、模糊性和目标冲突在复杂的工作环境中普遍存在，但绩效通常是如何进行的。尽管事情进展顺利非常重要，但传统的安全管理很少关注这一点。

因此，安全管理应从确保“尽可能少的事情出错”转向确保“尽可能多的事情做对”。我们称这种观点为安全 II；它关系到系统在不同条件下成功的能力。Safety-II 方法假设日常表现的可变性提供了对变化的条件作出反应所需的适应性，因此是事情顺利进行的原因。因此，人被视为系统灵活性和复原力所必需的资源。在 Safety-II 中，调查的目的变成了理解事情通常是如何变好的，因为这是解释事情偶尔变坏的基础。风险评估试图了解绩效可变性变得难以或无法监控的情况。安全管理原则是促进日常工作，预测发展和事件，并保持适应能力，以有效应对不可避免的意外(Finkel 2011)。

霍尔内格尔 e，戴斯 R.L .和布莱斯维特 j.《从安全-I 到安全-II:白皮书》。弹性医疗保健网:由南丹麦大学、美国佛罗里达大学和澳大利亚麦考瑞大学同时出版。此处可在线获得。

我从中得到的最大教训是，安全是你积极构建和完善的东西，而不是捕捉错误的看门人。增加创造安全的系统比试图抓住所有的错误更健康。毕竟，如果有足够的时间，期望你能抓住所有问题是不切实际的。

弹性 IT 系统的真实例子

实际上，那看起来像什么？嗯，它可能看起来像很多东西。网飞经常被描绘成 IT 弹性工程的典型代表，所以让我们来讨论一下他们是怎么做的。

2011 年 4 月 21 日， AWS 在弗吉尼亚州(US-East-1)地区遭遇重大停电。这次故障导致许多主要网站瘫痪，包括 Reddit、Hootsuite、Quora 和 Windows 脸书应用。然而，网飞经受住了这场风暴。他们的用户几乎没有注意到。

之后，网飞分享了一篇博客文章，解释了他们使用的一些技巧，这些技巧让他们在很多人失败的时候仍然在线。顺便说一句，2011 年并不是一次性的。网飞在 2015 又做了一次，在 2017 又做了一次。他们现在拥有在网络上生产最安全和最有弹性的系统的声誉。

为什么只有网飞能够在这场风暴中幸存下来？用他们自己的话来说(来自上面的博客)，他们的“系统是专门为这类故障设计的”。他们认识到库克教给我们的东西:复杂系统本质上是危险的系统，灾难总是迫在眉睫，他们在设计系统时考虑了这些事实。

他们的系统对故障有很强的防御，有许多聪明的自动故障转移和冗余特性。他们还明确设计了在降级模式下运行的方式。例如，他们认识到为用户提供推荐是有价值的，但不是必不可少的，他们意识到这在计算上是昂贵的。因此，当系统陷入困境时，他们可以自动关闭该功能(以及许多其他“值得拥有”的功能)，以保持核心运营在线。

从根本上来说，网飞以及任何其他弹性系统都认识到，在任何时候，它们都将包含潜在的各种不同的故障。他们认识到，所有的系统和依赖关系都可能在没有通知的情况下，以不可预测的方式发生故障，而不是仅仅设计专注于避免故障这一不可能任务的健壮系统。因此，最重要的是所有系统都被设计为保持在线，尽管可能处于降级模式，即使面对一个或多个故障，无论是内部基础设施/代码故障，还是依赖性。

此外，由于无故障操作需要有故障经验，因此有必要练习故障。而且有必要在不方便的时候练习。这就是为什么网飞故意随意破坏自己的服务。如果你从未听说过“混沌猴子”或“猿猴军”，你应该从创造它的人那里了解一下。

最后，正如 Cook 所明确指出的，操作员是系统不可分割的一部分。网飞的博客文章坚持软件的细节，但是人需要被重视，他们也需要被培训，保护和保持安全——就像系统的任何其他部分一样。

更重要的是，由于人类从业者是复杂系统的适应性元素，他们是投资的对象。最重要的是，我们明确认识到所有从业者的行为都是赌丨博 , 事后对人的表现的事后评估存在偏见，并且事故后对“根本原因”的归因从根本上是错误的。因此，在安全 IT 系统的开发中，指责和找特定个人的替罪羊是没有用的。如果人们犯了错误，他们会得到培训和支持，而不是绩效管理或遣散费。如果一个人会犯这个错误，其他人肯定会重复。与其试图将个人从系统中移除，不如将安全措施添加到系统中，以保护个人在未来不会重复类似的错误。毕竟，由于无故障操作需要故障经验，该个人可能已经学到了宝贵的经验，并且可能处于独特的位置，为这种测试/检查的发展做出贡献。

正如 IBM 首席执行官汤姆·沃森(1956-71)所言，当一位年轻的高管问他是否会因为一个代价高昂的错误而被解雇时:“完全不会，年轻人，我们刚刚花了几百万美元来教育你。”

实际上，这对我的数据库意味着什么？

首先，我们需要认识到变化会带来新形式的失败。这并不是说我们应该停止改变。如果有的话，我们应该更经常地做出改变！但是，我们应该设计我们的变更过程，以便尽可能有效地测试这些变更，并且当出现错误时，它们可以很容易地恢复。对于数据库来说，这是一项极具挑战性的任务，我们将在下一篇关于持续集成的文章中详细讨论，在本系列文章的末尾，我们将讨论配置环境和接近零停机时间部署的模式。

我们还应该设计有效的防火隔离带。一次错误的数据库更新不应该导致级联故障。需要控制故障，以便将其影响降至最低。这意味着我们需要避免单一的共享数据库，我们应该尝试将它们分割成能够独立运行的更小、更简单的系统，即使它们需要暂时以某种降级的能力运行。在后面关于松耦合和扼杀者模式的文章中，我们会更仔细地研究这个问题。

这些变化的结果应该是显著降低与任何数据库更新相关的风险。这种降低的风险应该减少对过度官僚化的变更管理过程的需求，允许更频繁地交付更小、更安全的更新，逆转上一篇文章中讨论的螺旋式下降，并导致一个持续改进的时期。

下次

在下一篇文章(第 3 部分)中，我们将讨论持续集成(CI)。具体来说，我们将讨论它是如何被误解的，误解可能造成的伤害，以及为任何 it 系统(包括任何关系数据库)采用“适当的”CI 的好处。

以下是本系列其他文章的链接。

批评现有系统:

想象更好的系统:

打造更好的系统:

观看网络研讨会

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统

VIDEO

愉快的部署！

安全模式更新-持续集成被误解- Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-3-ci-is-misunderstood

这篇博文是我的安全模式更新系列的第 3 部分。本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

构建更好的系统:

许多人听到*“持续集成”* (CI)会立刻想到构建服务器、测试框架和自动化。Jenkins、JUnit 和 GitHub 的行为很棒，但是任何声称使用这些工具为他们赢得 CI 徽章的人都没有抓住要点。

如果持续集成是关于持续构建的，我们会称之为持续构建。

当然，测试和验证是 CI 的基础。重要的是要确保任何已经集成到我们的源代码控制主分支中的代码都已经通过了所有适当和必要的检查。

定期的、自动化的构建是相当没有争议的，并且被普遍接受。正是这一点涉及到构建服务器和测试框架。但是那些构建脚本和那些小小的、令人欣慰的绿色标记是手段，而不是目的。它们只是一个更大想法的一小部分。

为什么我们要运行自动化构建和测试？

大多数人可能会用“捕捉错误”或“快速反馈”这样的回答来回应。是的，这些都很棒。然而，这仍然只是故事的一部分。这些答案还是没有抓住根本点。

连续整合约整合。

从字面上看，就这么简单。(选词是有意的，而且准确。)

大多数人错过了摆在他们面前的答案。CI 是关于减少在制品(WIP)的数量和避免大的合并。它是将广泛的目标分解成更小的(但可交付的)任务，这些任务可以独立开发、测试和集成。一旦集成了变更，就不需要从源代码控制中“挑选”这个变更或那个更新来进行部署，因为整个集成的变更集已经被作为一个整体进行了验证。一旦变更被集成，它们应该以最小的风险发布。

这些构建纯粹是为了验证我们的常规集成工作。毕竟，如果我们每三个月才集成一次代码，也许一周的测试阶段并不痛苦？然而，如果我们计划一天集成多次，一周的测试阶段是不实际的。这些构建的存在不仅仅是为了捕捉 bugs 它们的存在是为了支持对主源代码控制分支的可部署变更的持续集成——一天多次。

这意味着任何真正的持续集成实践者，也将实践某种形式的基于主干的开发。

有些人会反对基于主干开发的想法。他们可能希望保持不同功能/工作项目/标签的交付相互隔离，原因是业务目标冲突、时间安排或协调等。例如:

"这项功能需要在那项功能之后推出."
"这个版本需要与一些营销发布/合同期限相协调."
“我们需要快速跟踪这个修补程序。”
“这个可怕的大功能还没有准备好部署。”

这就是为什么持续集成从根本上来说是一个项目管理问题，为什么那些花哨的构建工具只是一个实现细节，以及许多其他技术和管理实践。

我们需要以这样一种方式管理我们的开发、测试和部署工作，使得上述问题消失。我们需要这样做，因为真正的持续集成的好处，比仅仅持续构建的好处要小得多。

为什么我们需要持续的集成？

你曾经在一个为期 12 个月的项目中工作过，而第 11 个月是留给“整合”的吗？你觉得怎么样？我猜事情不太顺利。

集成阶段通常是痛苦的，因为我们所有人(特别是项目经理，显然)都倾向于低估关于所有子系统应该如何集成的坏假设的数量。不管我们在 Visio 或 OmniGraffle 方面有多有才华，这些微妙的复杂性往往不会在干净的架构图中引用。

这导致发现比预期更多的问题。这很烦人，但这不是世界末日。真正的问题是这些错误是基于 6 个月前写的代码。

我们现在处理的是“承重虫”。

每个问题现在都变得更加棘手，因为彻底解决问题需要复杂的重构，并且可能需要从根本上重新思考这个位应该如何与那个位一起工作。由于依赖性，我们的负载 bug 修复可能会产生意想不到的后果，每个后果都需要时间来理解和修复。不幸的是，我们没有时间或预算来打开这个潘多拉魔盒，所以我们解决了这个问题，在快速破解和管道胶带的基础上堆积了难闻的变通方法。

这一切都证明了在制品(WIP)是负债，而不是资产。是一个沉没成本。如果你的 8 人团队在某个复杂的新特性上投入了 6 个月的开发时间，那就是 4 个开发人员年的投资，可能是 6 位数的总和，这是赌在你没有问题地集成代码的能力上。

开发分支和主开发分支之间的差异越大，合并就越复杂，遇到讨厌的负载 bug 的机会就越大。这将花费时间和金钱来修复，以及(很可能)降低代码的整体质量。此外，并发 WIP 越多，管理复杂的分支模式、不一致的开发环境、令人头疼的合并和危险的大爆炸式部署所浪费的管理开销就越大。相对于整合的规模，隐性成本以非线性方式增加。

除了成本增加之外，大型集成还会带来巨大的风险。集成越大，集成失败的可能性就越大，或者该特性就越有可能被放弃。或者，它可能会吸收资源，因为沉没成本谬误或人类骄傲会影响人们推动合并，尽管存在可笑的风险和/或成本。凤凰计划就是一个典型的例子。

快速反馈很好，但是自动化构建不会突出集成问题，直到并发开发任务被集成。因此，保持小规模和频繁的集成对于交付可靠的 IT 系统至关重要。

除了构建，持续集成还需要什么？

简单地说，优先考虑合并而不是分离的开发过程会是什么样子？

当然，自动化构建和测试是必要的。然而，CI 从业者面临的问题远不止构建这么简单。例如:

我们如何将一个为期 12 个月的项目分解成无数个小时/天的任务，每个任务都可以单独完成？
我们如何平衡长期愿景、迭代学习和更敏捷的优先排序和决策？
那些需要一天以上才能交付的棘手的大变更，以及那些不能在不完整的状态下交付的变更，又该如何处理呢？
当一个子模块的依赖项被频繁更新而没有警告时，我们如何管理它的可靠性？(无需求助于痛苦的人工审查过程。)
如果客户/用户仍然计划年度预算、季度发布和不频繁的软件更新，我们如何管理与他们的关系？高管和股东呢？
我们如何管理业务、法律或合同义务要求不频繁、大量发布的情况？
当我们一天多次发布变更时，一个合适的评审过程是什么样的？
我们如何大规模实践持续集成？在一天之内挤满了多次提交变更的开发人员的超大型 IT 职能部门中，我们如何管理这一点呢？

为了解决这些问题，我们需要仔细考虑我们的软件架构和我们管理依赖的方式。我们需要集成代码和频繁部署变更的方法，同时保留按照不同的时间表向用户发布/展示这些更新的能力，该时间表针对商业目标而不是纯粹的工程问题进行了优化。我们需要官僚化的过程，这种过程基于许多短交付周期的小变更的频繁交付，而不是长交付周期的不频繁的大变更。我们需要确保开发和生产之间的差异始终保持较小。

这是一个包含一大堆想法的简短段落。在这篇文章中，我不打算一一解开。在接下来的文章中，你可以看到处理这些挑战的技术。这篇文章的重点是强调持续构建只是持续集成冰山的一角。持续集成非常重要。

现在，猜度地说:

如果您正在您的功能分支上运行自动化构建，但是您没有将您的大功能与主分支合并，因为它还没有准备好…对不起，那不是 CI。
如果您在您的主分支上运行自动化构建，但是当涉及到部署时，您只是挑选这个提交或那个文件进行部署…对不起，这不是 CI。
如果您正在运行自动化构建，但是在您的主要源代码控制分支和产品之间有一个巨大的差异…对不起，那不是 CI。
如果你的开发环境和你的生产环境大相径庭，也许有不同版本的依赖或者堆积如山的废弃 WIP…对不起，那不是 CI。

所有这些与安全数据库更新有什么关系？

这个关于 CI 的小抱怨听起来有点离题，但是在接下来的两篇文章中深入讨论松耦合之前，我们正确理解 CI 是很重要的。当然，更小的系统更容易测试，但是不仅仅是这样，如果清楚地理解弹性和持续集成的更广泛的意义和价值，进入我们关于松散耦合和领域驱动开发(DDD)的讨论将会很有用。

此外，DDD 从根本上是关于打破数据模型，数据库通常是许多其他系统的共享依赖。松散耦合要求与独立服务相关的数据分离。因此，当我们开始讨论根据 CI 考虑拆分数据库的价值时，理解完整意义上的持续集成是有用的，而不是肤浅但普遍的“持续构建”误解。

下次

在接下来的两篇文章中，我们将转换话题，从技术和人的角度讨论数据库架构。我们将讨论松散耦合和领域驱动开发，以及这些原则如何帮助我们实践持续集成并产生安全、有弹性的 IT 系统。

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

打造更好的系统:

观看网络研讨会

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统

VIDEO

愉快的部署！

安全模式更新——松散耦合缓解技术问题——Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-4-loose-coupling-mitigates-tech-problems

这篇博文是我的安全模式更新系列的第 4 部分。

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

构建更好的系统:

在本系列的第 2 部分中，我们讨论了弹性和健壮性的概念。我们谈到了设计这样一个系统的价值，在这个系统中，失败是可以被承认的，被遏制的，并且是可以快速解决的。

在第 3 部分中，我们探索了自动化构建之外的“持续集成”的真正含义。中心思想是减少进行中的工作量和复杂集成或合并的需要。

在这篇文章中，我们设想一个软件和数据库架构，它本质上支持弹性系统的开发和维护。这种架构也是持续集成的一个很好的使能器，因为它显著地减少了任何一个组件上的并发工作量。因此，这种架构自然会产生更安全的系统，更易于开发、测试、部署和维护。

这篇文章将关注技术细节。然而，可以说，采用这种架构的人类和文化后果具有同等或更大的意义。我将在这篇文章中略去人的方面，不是因为我认为它们不重要，而是因为我觉得它们是如此的基本，以至于它们值得拥有自己的专用文章。您可以在第 5 部分中期待这一点。

我也不会谈论与构建或重构现有系统相关的实际问题。现在我们只是想象一下 better 可能是什么样子，我们将在以后的文章中考虑如何实现它。

在本系列的第 1 部分中，我描述了一个典型的整体数据库的创建，它支持无数的关键服务。如果您已经使用数据库有一段时间了，那么您可能以前处理过其中的一个。我不会在这里重复它们引起的问题，所以如果你想回顾一下，这将是一个很好的点来重新阅读第 1 部分。可以说，定期可靠地向单一系统交付更新是很困难的。当这些系统失败时，它们经常失败，这通常是一场灾难。

松散耦合的数据库，实现更快、更安全的交付

如果每个服务管理自己的数据会怎么样？

例如，每当我们假想的“支持”服务需要从我们同样假想的“销售”服务访问数据时，服务可以使用一些 API 或其他通信层进行通信，而不是直接调用数据库。这将使负责每个服务的团队对他们自己的数据负责，只要他们的 API 仍然可用。

每个服务的数据库管理问题都是相互隔离的。大型数据集被分割成更小、更易于管理的数据集。任何一个服务发布的复杂性都大大降低了，因为依赖性管理变得简单多了。为每个子系统需要支持的任何 API 调用创建简单的测试是相对容易的，而不需要关心哪些依赖系统实际上在使用它们。

当然，API 喋喋不休可能会增加，这是一个需要管理的新问题。然而，通过代码基础设施、自动伸缩和混沌工程等模式，这些问题比与单一的单点故障数据库重构相关的挑战更容易管理，也更安全。

领域驱动的设计和有界上下文

一些读者会认为这种架构不切实际。例如，销售和支持系统都需要访问相似的客户数据。如果他们需要访问相同的数据，如何分割数据库？

对于这些人，我建议花一个晚上的时间阅读沃恩·弗农的领域驱动设计精华，这是埃里克·埃文斯更彻底的领域驱动设计的一个简短且更容易理解的版本。

Vernon 和 Evans 描述了一个数据建模过程，该过程将有界上下文的概念放在前面和中心。事实上，我上面的销售和支持示例，以及下面的图片，都摘自 Martin Fowler 的优秀 BoundedContext 博客文章:

图片来源:【https://martinfowler.com/bliki/BoundedContext.html】T4

在这个例子中，负责销售和支持应用程序的团队已经就产品和客户的无处不在的数据结构达成一致，并且他们已经通过 API 将他们的数据提供给其他服务。例如，销售和支持数据库可能都有相同的客户和产品表，其中一些唯一的字段用于标识匹配项。API 将有一套约定的方法来检索数据，这些方法将通过构建/部署管道进行例行测试。

较小的系统更容易供应、开发和测试

现在销售和支持数据库不再直接交互，许多工程挑战变得更容易解决。

当支持系统的开发人员希望提供一个开发环境来完成一项任务时，他们不需要提供整个全局系统和所有的依赖项——他们需要的只是支持系统。

如果他们需要来自销售系统的数据，在大多数情况下可能会被嘲笑，但是如果两个系统都需要，那就不成问题了。

这两个服务可能只是众多服务中的两个，所以与部署整个 monolith 相比，开发环境的总体规模仍然大大减小了。

这种较小的开发环境部署起来更快、更便宜。数据屏蔽、隐私和存储问题显著减少。系统的整体复杂性更容易管理，并且对其他系统的依赖性是明确的和可测试的。

松散耦合支持持续集成

正如第 3 部分中所讨论的，持续集成(CI)告诉我们，我们应该优先完成和集成/部署现有的在制品(WIP ),而不是创建新的 WIP。这适用于任何地方存在的、尚未成功合并、部署到生产和验证的任何和所有开发工作。如果不优先考虑合并而不是分离，我们最终会有越来越多的在制品，这有着巨大的隐性成本。

当我们有一个大型的、单一的系统，也许有 10 多个团队的 100 个开发人员，我们的 CI 问题是很严重的。在同一个代码库上并行执行如此多的任务，很难做到面面俱到。这是我们经常看到复杂的分支计划和混乱的开发环境的地方，包含了一大堆半成品或者已经废弃很久的开发和测试代码。

然而，如果这十个团队通常在独立的、松散耦合的服务上工作，每个团队都在他们自己的存储库中，那么与管理任何给定服务的变更相关联的复杂性就会大大降低。每个服务在任何时候都只会有少量正在开发的并发任务。

举例来说，这种复杂程度实际上可以在短期的日常团队活动中理解和管理。只要所有必需的 API 仍然可用，分支计划就会变得更简单，发布协调问题也会消失。

对于更松散耦合的系统，开发人员可以更容易地持续集成他们的工作。这大大减少了与 WIP、环境漂移、分支机构地狱、政治和项目管理开销相关的挑战。

此外，松散耦合的系统以可管理的方式扩展。如果十几个团队在同一个整体后端工作的想法让你害怕，想象一下与亚马逊或谷歌规模系统相关的挑战。

如果您预计您的系统可能会增长(只要公司还在经营，他们的关键系统就会增长)，那么从一开始就考虑松散耦合来设计您的系统是明智的。

松散耦合会产生防火间隙

给足够的时间，一切都会破碎。对于整体系统来说是这样，对于松散耦合的服务来说也是这样。失败仍然会发生，但是松散耦合的系统更有弹性:数据鸡蛋不再都放在同一个篮子里。

每个服务将独立托管其数据。如果流星击中托管销售服务的数据中心，支持服务可能不会受到影响。通过这种方式，可以更好地隔离故障，并且受影响的服务更小、更简单、更容易修复。所有这些都是在没有放慢发展速度的情况下实现的。其实现在开发更简单，更安全。

当然，我们需要遵循某些规则。

每项服务都需要设计为在相关服务不可用时正常失效/降级。例如，支持系统应该被设计为当销售服务不可用时，它仍然可以运行，可能具有降级的功能。也许支持团队可能会失去一些功能和销售数据的可见性，但是他们仍然能够进行核心支持操作。

作为开发人员，测试依赖关系变得至关重要。如果您依赖于对另一个服务的 API 调用，您应该确保有一个测试来验证这种依赖性，并且您应该将系统设计为在 API 调用失败时正常失败并记录一个错误。

对于 monolith 来说，这种调整不当的升级脚本可能会导致全局中断。通过松耦合，我们只关闭了销售系统，减少了失败的影响。此外，由于松散耦合的销售系统比旧的整体系统要小得多，因此很容易快速恢复在线。

下次

在这篇文章中，我们设想了一个更加松散耦合的架构。这种建筑更能抵御失败，因为它创造了自然的防火屏障。此外，较小的服务通常更易于开发和恢复。

此外，系统更精细的特性使得管理不同的工作流更加容易。任何给定服务的并发工作流的显著减少减少了项目管理/发布管理/分支开销。

单独来看，这些点将导致显著更安全的数据库版本。然而，这些好处是人为因素造成的。在下一篇文章(文章 5)中，我们将更详细地探讨这些人为因素。

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

打造更好的系统:

观看网络研讨会

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统

VIDEO

愉快的部署！

安全的模式更新——松散耦合减轻了人为问题——Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-5-loose-coupling-mitigates-human-problems

这篇博文是我的安全模式更新系列的第 5 部分。

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

构建更好的系统:

“不管是什么问题，都是人的问题。” 杰拉尔德·温伯格

在前一篇文章(第 4 部分)中，我们关注了与软件/数据库架构相关的技术问题。在这篇文章中，我们关注人类的问题。

康威定律规定，组织只能设计反映其内部沟通模式的系统。正如 Eric S Raymond 在《新黑客词典》、中所言，“如果你有四个团队在开发一个编译器，你会得到一个 4 遍编译器”。

我们的团队结构显著地影响着我们的软件架构…但是反过来也是正确的:复杂的架构会滋生痛苦和有害的官僚主义和工作文化。如果任其发展，它们可能会形成恶性循环。

当关键但复杂的整体出了问题，并且很难确定原因和结果时，人们通常会迅速指责并掩盖自己的过失。如果我们对自己诚实，我们可能都会想起自己采取自卫行动的时候，即使我们不知道自己是否有错。我们都是有价值但不完美的人类，我们都有自我保护的本能。

帕特里克·兰西奥尼在团队的五大功能障碍中谈到了冲突、承诺和责任。他的第四个功能障碍明确指出逃避责任不利于有效的团队合作:

图片来源:https://medium . com/task world-blog/lencionis-5-dysfunctions-of-a-team-330 d58 B2 CD 81

在本系列的第 2 部分中，作为我们对可靠性和健壮性讨论的一部分，我们讨论了 Richard Cook 对复杂系统如何失败的深刻研究。

特别是，我们研究了复杂系统中关于责任或责备以及“根本原因分析”的传统观点的问题，在复杂系统中，故障通常是由许多看似不相关的因素引起的。这些挑战是不可避免的，但我们可以通过设计更容易观察、关系、依赖和期望定义更清晰的系统来帮助自己。

当我们将复杂的整体架构分解成更小、更松散耦合的系统时，这有助于每个人对自己的子系统负责。这些子系统应设计为独立于其他系统运行，这样，如果一个系统出现故障，故障通常会被隔离到该系统。没有必要浪费时间调查更广泛的系统或指责。一个合适的工程师团队可以将他们的注意力直接集中在行为不当的子系统上，而其他人可以监控其他子系统，以确保他们按照预期应对中断。

产生反效果的政治机会少得多，人们更容易专注于解决问题、学习和改进。每个人都受益:股东、经理和工程师都一样。

服务水平目标(SLO)和停机时间预算

DevOps 运动拒绝了开发团队应该以交付速度为目标，而独立的运营团队以稳定性为目标的想法。这些团队的目标之间的冲突不会激励合作或系统思考。

通过将大块分割成独立的服务，它允许更小的、跨职能的团队负责交付速度和他们自己服务的稳定性。当速度/稳定性目标之间存在冲突时，可以由最了解客户需求和技术细节的人来权衡，他们共同拥有速度和稳定性目标。

为了支持这一点，可以给每个服务一组特定的公共服务水平目标(SLO)。下游服务将会意识到这些 SLO，并可以根据这些 SLO 有针对性地设计自己的服务。例如，如果销售服务(来自前一篇文章)承诺 99.9%的正常运行时间，那么支持服务将不会被设计为期望 99.99%。

但是这些 SLO 是双向的。99.9%的正常运行时间，也意味着 0.1%的停机时间(大约 43 分钟/月)。了解这些限制对于设计任何 HA/DR 策略和规划部署/风险管理都是必要的。通过使用具体的数字，我们可以做出实际的、明智的决定。

“停机时间预算”为各方设定了现实的期望，无论他们是相关系统的开发者，还是最终用户。明确的 SLO 鼓励团队计划维护和设计部署模式，将停机时间保持在可接受和可行的范围内。这些停机时间预算还允许团队平衡他们对创新/风险的偏好和他们的稳定性责任。

例如，如果一个团队在一个月的第一周内用完了大部分的月度停机预算，那么现在可能是时候将他们的精力集中在与提高稳定性相关的任务上，而不是推进有风险的新功能。同样，如果他们的业绩经常比他们的 SLO 高出几个数量级，也许他们应该优先考虑下一个面向客户的特性，而不是进一步的稳定性投资。

通过发布每个服务的 SLO 和性能度量，团队对他们自己的工作负责。如果经常错过特定的 SLO，这应该会引发一场关于业务如何支持团队改进的对话。也许 SLO 是不合理的？也许团队需要一点支持？无论哪种情况，它都允许组织将精力和投资集中在最需要的地方。

有界上下文支持有限自治

在理想的世界中，评审是必要的，评审应该由能够在代码还新鲜的时候阅读代码、理解结果并提供有见地的改进建议的人来执行。就法规遵从性而言，审查应(至少)由对系统有足够了解的工程师进行，以发现任何潜在的欺诈性变更。(注意:这通常需要大量的技术技能以及一些使用代码库的实践经验。)毕竟，防止欺诈是萨班斯-奥克斯利法案的全部目的。

由于持续集成教导我们优先考虑合并而不是分离(参见第 3 部分)，评审者也应该优先考虑代码评审(合并)而不是他们当前正在进行的任何新的变更(分离)。理想情况下，在提交变更以供批准的几分钟内，审阅者应该暂停他们正在做的任何事情并审阅变更。

没错。应该期望评审人员从任何新的开发工作中休息一下，以便优先考虑“开发完成”工作的合并和部署。

从这个角度来看，每周召开变革顾问委员会(CAB)会议的想法听起来应该是有害且低效的。任何出租车成员都大胆地认为任何 WIP 都应该无所事事，腐烂一周，以适应他们自己的时间表，这应该被认为是极其傲慢的。他们还在做什么比合并一周的腐败分歧更重要的事情呢？交付可靠的更新是字面上的工作重点——不是一项可以推迟到周末的任务。(我去年已经更详细地讨论了为什么变更顾问委员会不起作用，所以我在这里不再赘述。)

很明显，高级经理不应该审查部署。每当有人提交新的拉取请求时，他们可能无法放下他们正在处理的任何事情。他们的角色是支持健康的评审实践，而不是亲自进行评审。

幸运的是，通过分离我们的系统，任何特定系统的利益相关者的数量都会显著减少。为什么销售系统的工程师应该关心支持系统的发布(反之亦然)？这只会破坏他们的注意力，分散他们对自己的子系统所负责的工作的注意力。API 依赖应该在测试框架中进行编码。如果一个依赖被破坏了，那应该被自动标记，如果一个测试丢失了，那是依赖它的团队的责任。

拥有任何给定服务的速度和稳定性目标的人应该生活在团队内部。他们不需要 CAB 或任何其他外部批准者。他们是实现目标最有效的人。

通过将审查引入给定服务的跨职能团队，我们可以使审查更加及时。这并不一定意味着它们是由开发人员自己完成的，或者甚至是由具有相同角色的人完成的。毕竟，这个团队是跨职能的。也许是高级开发人员或基础设施工程师进行审查？对于数据库变更，可能是数据库专家，甚至是数据库管理员？

修订后的审核流程将更有可能发现错误和/或欺诈性变更，并保持任何“职责分离”要求。如果说有什么不同的话，那就是比传统的基于出租车的审批做法更符合我迄今为止遇到的任何立法，并且它支持高质量 it 服务的交付，而不是阻碍它。它还支持负责交付和维护服务的团队内部的协作和知识共享。

人们对放弃 CAB 的一个常见担忧是，高级管理人员或安全团队可能会失去控制、权威或监督。这种看法是没有根据的。对于那些关心的人，我鼓励你们想象这样一个世界:每个服务的状态，就其 SLO 而言，都可以在一个实时仪表板上看到。

任何经常错过 SLO 的服务都会向传统上坐在出租车上的人强调。这将是一个开始对话的线索，讨论为什么会遗漏 SLO，以及可以做些什么来提供帮助。这将允许所有那些非常关心最小化风险的高级管理人员将他们的注意力和精力集中在他们能够在提高安全性方面提供最大价值的人员和服务上。

最后，对于那些反对根据更高层次的商业需求或营销目标来安排发布时间或向客户/用户透露更新的读者，我恐怕要放弃这种想法了。您将在第 7 部分:接近零停机时间的部署中找到该异议的答案。

来自高层的坚定的文化领导不是可有可无的

起初，采用公开报道的 SLO 会让工程师感到脆弱。当事情不顺利时，坦诚面对失败需要勇气。如果他们已经在政治有毒的工作文化中工作，尤其如此，在这种文化中，失败通常会导致替罪羊和负面影响。如果我搞砸了大家都能看到，我会不会一出错就被开除？我的意思是，我们都会犯错误，经常令人尴尬。我肯定迟早会被解雇，这是不可避免的。

我想我最好在我的简历上下点功夫，试探一下。

(有趣的事实:当我开始这个系列的时候，我以为会是单篇博文！然后它变成了一个三部曲…现在它变得更大了，我已经远远落后于我最初的出版计划了！我非常感谢八达通公司令人敬畏的人们的耐心和理解！)

向有限责任的转变会带来巨大的好处，但前提是团队感到安全和支持，尤其是失败了。这是一件只有通过明确、诚实和真诚的指导才能实现的事情——来自高层的指导。如果你想得到一点帮助来想象那会是什么样子，戴上耳机，然后点按“播放”:

创建一个安全的架构，从技术上来说是安全的，对于交付可靠的服务来说是至关重要的。然而，除非你也有鼓舞人心的领导者，他们培养一种重视所有团队成员心理安全的文化，否则这一点都没用。

下次

我们从传统的数据库交付地狱，以及强化导致技术债务奇点的恶性循环的各种因素开始了这个系列。然后，我们继续设想一种更好的方式，涵盖弹性、持续集成和松散耦合的理论基础。然而，当我们进入一些细节想象一个更好的系统可能是什么样子的时候，我还没有写任何关于如何从一个架构过渡到另一个架构的技术细节。

在我的下一篇文章(第 6 部分)中，我们将改变思路。我们将从理论转向实践，三篇技术文章中的第一篇旨在帮助您开发三种重要的能力，支持您向松耦合架构的过渡。

在这三篇文章的第一篇中，我们将讨论用可用的和符合法规的开发/测试环境的自助服务和按需供应来替换共享的开发/测试实例。

在那之后，我们将用两篇讨论接近零停机时间的发布和将大块业务分解成小块业务的安全过程的文章来结束这个系列。

虽然这些功能中的每一项都很有价值，但只有将这三项结合起来，每项功能的优势才会成倍增加。

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

打造更好的系统:

观看网络研讨会

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统

自动安装 SQL Server Developer】

VIDEO

愉快的部署！

安全模式更新-供应开发/测试数据库- Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-6-provisioning-databases

这篇博文是我的安全模式更新系列的第 6 部分。本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

构建更好的系统:

我们已经完成了这个系列的一半以上，到目前为止我们还只是停留在理论上。我们想象了一个更好的世界，但是我们还没有讨论实现这个世界所需的实际步骤。

现在情况变了。

从现在开始，我们将明确地讨论采用我在第 1 部分中讨论的那种 hellscape 的过程，并迭代地重构它，以便更安全地进行更改和改进。

根据记录，这段旅程可能不会很快也不会很容易。我们将讨论技术、流程和想法，这些对您现有的团队来说可能是新的。学习是困难的，大多数人需要一些时间来接受、学习和接受新技术和流程。

我们不会陷入教程、代码片段或其他细节中，但会有大量链接指向更详细的资料。

我们永远没有足够的环境

首先要做的事情:提供开发和测试环境。正如我们在第 2 部分“无故障运行需要失败经验”中所学。如果你的团队不能容易地进入一个现实的开发空间，在那里他们可以安全地实践失败，那么他们就不太可能构建出有弹性的生产系统。

通过从可快速部署和可任意处理的开发和测试系统开始，我们培养了更好地测试和预演有风险的重构的能力，这在以后会变得必要。此外，关于交付周期:

制约因素几乎总是存在的第一个地方，尤其是对于共享运营的传统 IT 组织[……]是环境创建。我们永远也吃不够，每当我们真的需要一个的时候，我们仍然要等四十个星期。

金、超越凤凰计划、

回想一下我们在之前的帖子中学到的内容:

个人的、可快速部署的环境更有弹性，因为它们是一次性的，并且可以隔离故障。如果一个开发人员破坏了一个环境，这个失败不会影响到其他任何人，并且可以轻松地终止和重新修复这个环境。此外，如果开发人员的个人开发实例被破坏，他们知道他们已经发现了产品中已经存在的问题，或者他们自己的代码有问题。这就减少了怀疑和指责。
自助服务环境减少了“在我的机器上工作/在开发中工作”的问题，因为所有环境都是从标准映像构建的，尽可能“像生产一样”。
个人开发环境鼓励持续的集成，因为当变更在不同的共享开发/测试环境中进行时，它们不需要被批量处理。变更是相互分离的。这导致了更小的集成、更安全的部署、更好的质量、更少的官僚作风和更快的交付周期。

如果我们想要获得这些好处，快速、轻松地进行环境资源调配至关重要。避免因依赖运营团队或审批者而导致的任何延迟至关重要。

我们的目标是创建一种现实的、现成的、预先批准的环境，开发人员和测试人员可以根据需要快速构建并抛弃它。它应该感觉像“git 克隆 f5 ”,需要大约同样多的时间和按键。

这个目标适用于任何系统的每个组件。由于数据库通常是一个共享的依赖项，其他一切都建立在它的基础上，所以在本文中，我们将重点关注快速、自助式的数据库供应。然而，这些想法和技术中的一些也可以帮助人们同时构建额外的依赖系统，允许人工或自动测试运行来构建完成手头任务所需的任何部分。

使用本文中的技术将会降低管理开销，并使产品更加安全。但是，节约成本不应该是首要目标。事实上，开发/测试托管费用(单独考虑)可能会有所增加。对于那些担心基础设施成本飙升的人，考虑一下大多数托管平台都允许支出上限。预算审批流程应该关注在哪里设置上限，而不是微观管理任何具体的计算时间。

让我们开始吧。

基础设施作为代码

如果使用云数据库，如 Azure SQL 数据库或 Amazon RDS，这一步可能没有必要。然而，出于本文的目的，我们将假设我们的整体后端数据库是运行在某个虚拟基础设施上的 SQL Server 数据库，要么在某个私有云，要么是 AWS、Azure 或 GCP 等托管提供商。

在这种情况下，您需要对一些脚本进行版本控制，以允许开发人员在他们自己的开发工作站、私有云或托管提供商上启动新的虚拟机或容器。

对于任何不熟悉这个概念的读者，我建议您阅读 Bob 的优秀系列，它从这里开始:

使用基础设施作为运营手册的代码

您的目标是为每个开发人员或测试人员提供一种简单的方法，在此基础上构建测试数据库。

SQL Server

一旦有了服务器，就需要安装 SQL Server。我建议你从阅读 Bob 的另一篇文章开始(我会永远引用它！):

Bob 解释了如何对您的 SQL Server 配置进行版本控制并自动安装 SQL Server。读完之后，如果你运行的是 Windows，我鼓励你看看巧克力。这基本上是 Windows 对 Linux 的 apt-get 的回应。它实现了与 Bob 的自动化脚本相同的功能，但代码少了:

choco 安装 SQL-server-2019-params = " '/配置文件:c:\ git \ my repo \ IAC \ SQL \ configuration 文件。ini ' "

最后，不讨论 Docker 容器是一种疏忽。

您可以在 Windows 或 Linux 上的 Linux 容器中运行 SQL Server。Docker 允许人们比在操作系统上安装新的 SQL 实例更快、更有效地运行它。这允许开发人员更频繁、更自由地启动和关闭实例，而无需提供新的开发机器。除了加快速度之外，这还可能简化整个过程，因为开发人员无需在每次想要重建环境时都启动和拆除新的服务器。

在我看来，开始使用 SQL Server 容器的最佳地方是 Andrew Pruski 的优秀博客系列，它将带你从零到 Kubernetes 的混沌工程(以及……太空入侵者)。

https://www.youtube.com/embed/HCy3sjMRvlI?start=1642

VIDEO

数据库/数据

到目前为止，我们已经实现了基础设施和 SQL Server 安装的自动化，但是我们还没有设置数据库或任何测试数据。不足为奇的是，缺乏真实测试数据的开发人员往往会写出性能很差的查询。他们的代码第一次大规模测试是在生产中！

不幸的是，在开发/测试中使用原始生产数据几乎是不可能的/不切实际的。在我们继续之前，我们需要解决两个需要解决的问题:隐私和规模。我们将依次处理这些问题。

数据隐私:提供有用但安全的测试数据

如果为他们的银行、医疗保健提供商或超市工作的所有开发人员都可以访问他们的个人财务、健康或购买数据，大多数人会认为这是对隐私的侵犯。同样值得考虑的是，与生产数据库相比，黑客更有可能攻击开发数据库。如今，网络钓鱼邮件非常具有说服力。一旦坏人获得了对开发人员机器的访问权，开发人员数据库通常就更容易成为目标。

为了应对这些问题，几乎所有地方的数据隐私立法都趋向于更加严格。除了法律制裁，每当下一个企业遭遇数据泄露时，传统媒体和社交媒体都喜欢推波助澜。没有人想成为下一个 Equifax 。

问问你自己:“想象一下有人把你的 dev 数据库上传到一个流行的黑客网站……你担心吗？”如果是这样的话，很可能您知道在不应该存在敏感数据的地方存在敏感数据，或者您不知道 dev 数据库是否包含敏感数据。根据许多最新的数据隐私法，这两种情况都是不可接受的。

无论您是维护一个单一的共享开发环境，还是使用许多可任意使用的环境，都是如此。然而，如果走一次性基础设施路线，重要的是要认识到我们可能会创建许多开发数据的副本，这可能会加剧数据监护问题。

不管我们有一个还是一百个共享开发环境，这些环境中的数据库都不应该包含任何敏感数据。您可能希望用各种类型的数据来替换您的敏感数据。在推文中总结一下:

出于本文的目的，我将提出大多数开发和测试目的的理想数据是生产数据，但是任何敏感记录都要以某种方式删除或替换。这样，可以用代表性的数据规模和分布来测试程序，更好地突出一次性环境中的潜在问题。这将导致更多的问题被提前发现，更少的生产问题。

为了实现这一点，首先我们需要进行数据审计并创建数据清单/字典/地图。需要根据数据的敏感程度对数据进行分类。(这已经是包括 GDPR 在内的许多数据隐私法的要求。如果你不知道你的敏感数据在哪里，你就无法保护它！)

在 SQL Server 中，有几种方法可以做到这一点。例如，您可以强制所有列使用一个扩展属性来定义数据敏感度的级别。这些属性相对容易放入源代码控制和查询。进一步来说，数据分类从 2016 年开始就是 SQL Server 的内置功能。

接下来，我们需要创建数据库的副本，清除所有敏感数据。我建议使用您的环境创建脚本(如上)在您的生产防火墙后面的某个地方建立一个临时的“暂存”实例。然后，您可以定期将最新的生产备份还原到该临时区域，并运行一些脚本或工具来删除所有敏感数据。(额外收获:无论如何，定期测试你的备份是一项重要的实践。)

数据屏蔽过程可能简单到用“John Doe”替换所有姓名，或者您可能使用更复杂的过程来创建真实但虚假的数据。例如，您可能想看看dbatools Invoke-dbaDbDataMasking cmdlet(开源、简单、免费)或Redgate Data Masker for SQL Server/Oracle(第三方、复杂、非免费)。在这里投入精力来创建更真实的测试数据将会在以后带来更高质量的开发和测试工作。

如果你担心敏感的生产数据泄露，这里有一些建议:

向部署管道中添加一个测试，确保所有列在源代码管理中都有一个数据分类。
向部署管道添加一个测试，确保所有敏感列都有相应的屏蔽脚本或规则。
在遮罩过程之后添加冒烟测试，以扫描看起来敏感的数据，如社会保险、信用卡或电话号码。
在您的部署管道中添加一项检查，确保对数据隐私分类或屏蔽脚本的任何更改都被标记出来，以供高级开发人员或(如果必须的话)数据库管理员、安全团队、数据隐私官或 变更顾问委员会审查。(呦！“角色分离”执法大队:我看到你了。我所要求的是采取措施确保这些审查迅速进行，而不造成长时间的拖延。

在屏蔽脚本之后，开发人员/测试人员可能想要提供他们自己的脚本来在登台实例上运行。例如，向数据库添加一组已知的测试用例，或者为开发/测试组添加一个具有管理权限的 SQL 登录。

当所有这些脚本完成后，我们可以在登台服务器上备份新的“dev-safe”数据库，并将备份复制到 dev 域中的某个共享位置。(然后我们可以删除临时数据库实例。它已经完成了它的使命。)

注意:数据屏蔽脚本可能需要很长时间才能运行，并且可能需要大量计算资源。如果逐行处理大型表，并到处创建临时表来维护复杂的外键引用，情况尤其如此。因此，整个事情需要作为一个计划的任务运行，每晚/每周/冲刺等创建新的“安全开发”备份。

现在，到开发人员早上开始工作的时候,“对开发安全的”备份应该已经准备好供他们使用了。他们已经创建的用于启动开发环境的脚本现在可以扩展，以恢复最新的掩蔽生产备份。现在，他们的开发环境已经完成了相对较新版本的屏蔽生产数据库。

数据规模:使生产数据更小、更快、更便宜

我们可能仍然面临重大的实际挑战。大多数生产数据库都非常大。

生产数据库很可能会太大，以至于无法在开发环境中完全重现。如果生产数据库是以 TB 为单位来衡量的，那么您不太可能想要购买大量的开发和测试服务器，每个服务器都足够大，可以承载全部内容。此外，大型数据库可能需要很长时间才能恢复。我们希望这个过程只需要几秒钟，而不是几个小时。

也就是说，您的开发人员和测试人员可以真正从访问大规模和相对较新的数据中受益。如果他们从来没有针对大型的、有代表性的数据集测试过他们的代码，他们怎么能预料到那些非直观的性能问题呢？这些性能问题可能会导致支撑整个生产资产的生产数据库崩溃。

这就是数据库克隆可以发挥作用的地方。

像 dbaclone (开源，免费)和 Redgate SQL Clone (第三方，不免费)这样的工具使用已经内置在 Windows 操作系统中的虚拟化功能来创建大型文件的廉价、可编辑的虚拟副本。

在 SQL Server 开发环境中，运营团队通常会从在共享位置创建大型数据库(高达 64TB)的开发安全“映像”开始。之后，开发人员可以根据需要创建“克隆”。这些克隆实际上是指向原始“映像”的指针。首次创建时，每个克隆只需要几兆字节(不管源映像的大小)。因此，我们可以在廉价的商用硬件上，几乎即时地创建几乎无限的源映像克隆。

聪明的一点是一个“差异磁盘”,它可以捕捉开发人员对克隆所做的任何更改。这感觉就像魔术一样，因为每个克隆都变成了它自己的 64 TB 源映像的可编辑副本，即使克隆运行在一个小得多的驱动器上。

主要问题是“差异磁盘”的大小会随着您修改文件而增长。因此，对小对象(如视图、过程或单行数据的更新)的更改不太可能产生大的影响。但是，如果重新索引一个大表，可能会很快耗尽磁盘空间。克隆是在小型、可任意使用的基础架构上使用的理想工具，在这种基础架构中，克隆的物理位置靠近源映像。

作为一个聚会恶作剧，我曾经在我的会议演示结束时循环运行这项克隆技术。几分钟之内，我在笔记本电脑上运行了一千多个可编辑的完整 StackOverflow 数据库副本。我的本地 SQL Server 实例认为我的 13 英寸 HP Spectre 上有将近 1pb 的 SSD 存储空间！

如果您想了解更多关于如何一起使用容器和克隆的知识，您可能想从观看我去年与 dbaclone 项目的维护者桑德·达塞的一次谈话开始:

https://www.youtube.com/embed/masJxBmgfqo

VIDEO

而且，如果这一切还不够酷，看看红门产卵。这是 SQL 克隆的托管版本。虽然它仍处于预览阶段，我还没有机会亲自使用它，但我真的对它的潜力感到兴奋！它有可能用一个命令取代本文中的大部分步骤。

如果你想开始，我在去年写了更多关于数据库克隆的细节，并且我包括了一个更详细的演练。

架构部署

到目前为止，我们有望获得一个常规的批处理作业，为我们的每个数据库生成开发安全的数据映像，以及一组自动化脚本，允许开发人员根据需要使用真实的数据来构建 SQL 实例。然而，这些数据库可能会有点过时。

数据库模式不是基于源代码管理的最新版本，而是基于产品。(生产可能还没有最新的开发变更)。此外，由于新的开发映像是提前创建的，它们可能已经存在几天或几周了。

在我们可以使用我们的新开发环境之前，我们需要在最新版本的“开发安全”数据库之上部署我们的源代码控制主分支中的最新源代码。除了这是使我们的开发环境保持最新的必要步骤之外，我喜欢这个练习，因为每次开发人员构建一个新环境时，他们都在有效地测试下一个生产部署。因此，如果有任何问题正在酝酿，你很可能提前发现它们。

我不打算在这里讨论自动化数据库部署的过程，但以下资源可能会有所帮助:

加速这一切

我们的配置过程现在已经完成。它有两个部分:

按照计划，我们有一个为开发人员创建新的开发安全数据库的过程。
开发人员可以在需要时构建他们自己的开发环境。

然而,“git，clone，f5”的体验可能还是会让开发者有点沮丧。

当开发人员想要运行他们的代码时，克隆回购相对较快，并且他们可以运行他们的脚本(或者使用 Octopus Runbook )来构建开发环境。但是，该脚本可能需要一段时间才能完成。

作为一名开发人员，我不想等待超过一分钟，最好是不超过几秒钟，就开始运行我的代码。但是，我的环境供应脚本必须完成以下所有工作:

构建一个新实例并启动它。(这最多需要几分钟时间。)
安装 SQL Server，以及其他任何需要的东西。(大概还要 5-10 分钟。如果使用容器就更少了。)
还原我的数据库备份或克隆数据库。(如果使用大型备份，可能需要一段时间。)
部署最新的源代码。(根据模式的大小/复杂程度以及部署工具/过程，这可能需要几分钟的时间。)

如果所有这些都需要 15 到 30 分钟，这并不奇怪，对于大型数据库来说，可能需要更长时间。这是一大堆无聊的事情，可能会让开发人员担心破坏他们的开发平台。如果他们犯了一个错误，他们真的想冒这么长时间延迟重生的风险吗？迭代一个设计或者测试多个实现选项可能需要很长时间，如果每个演进需要几个小时的话。

我们或许可以通过虚拟机快照来加快速度。或者，我们可以预先创建一个开发环境队列。我最喜欢队列选项，因为它省去了所有的 VM 魔法，并且可能更快。在开发人员提出请求之前，开发环境就已经准备好了——他们所需要的只是连接字符串。

摘要

根据 Gene Kim 的说法，大多数人在开发运维转型中遇到的第一个交付瓶颈是环境创建。我们在数据库交付地狱中目睹的许多问题都是共享和不一致开发环境的结果。我们知道失败是正常的，所以创建失败是安全的系统是很重要的。

亲爱的读者，我希望这篇文章中概述的各种技术实践将允许您将尽可能多的开发和测试从您的大型共享开发/测试环境转移到专用环境中，在专用环境中，可以对更改进行隔离测试，并在准备好进行部署时进行合并。

这种改进的测试能力将会派上用场，因为我们将继续关注下一篇关于近零停机部署和将整体系统分解成更松散耦合的架构的扼杀模式的文章。如果您能够在安全的、可任意处理的开发和测试环境中测试和预演这些变化，那么进行复杂和有风险的重构会容易得多。

下次

在下一篇文章中，我们将把焦点转向部署模式。

在本系列中，我一直倡导更小、更安全、更频繁的部署。但是，如果这些部署需要停机时间，我们就不太可能像我们希望的那样经常部署。如果每次部署都需要一个小时的停机时间，那么一天部署 10 次是没有意义的。在我看来，接近零停机时间的部署不应该被视为一些崇高而不切实际的目标。它们应该被认为是实践真正的持续集成和交付弹性系统的先决条件。

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

打造更好的系统:

观看网络研讨会

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统

VIDEO

愉快的部署！

安全模式更新——接近零停机时间的数据库部署——Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-7-near-zero-downtime-deployments

这篇博文是我的安全模式更新系列的第 7 部分。本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

构建更好的系统:

小的、频繁的和简单的改变更安全。大的、不频繁的和复杂的变化更危险。如果你不同意，从头重新阅读这个系列，从我的关于数据库交付地狱的帖子开始。

数据库很少孤立存在。在修改数据库模式时，我们通常需要考虑依赖关系。数据库通常服务于前端应用程序/服务，这意味着模式更改通常需要与其他系统的更改相协调。

可能需要停机一段时间，因为我们不能冒险提供不匹配的版本:

系统离线
所有的变更都是一次/按顺序部署的
系统恢复在线

在整个过程中，我们的用户被锁定。

有一百种方式会导致糟糕的结局。凤凰计划就是这样一场灾难。数据库更新花费的时间比预期的长，关键系统无法按时恢复。

尽管有风险，但是如果我们有数据库模式，避免对模式进行更改是不明智的。随着时间的推移，这种僵化的策略会导致糟糕的体系结构，不能反映不断发展的业务需求。

我们的目标是使模式能够安全地发展。因此，我们需要确保小规模且经常地执行此类部署。

不幸的是，每次部署所需的停机时间越长，我们就越不可能做到这一点。如果每次部署都需要一个小时的停机时间，我们永远不会一天部署 10 次。

更有可能的是，工程师将需要提前做好计划，并玩弄政治来协商一些停机时间。可能是一夜之间。(疲惫的员工并不以他们的可靠性、对细节的关注或解决问题的能力而闻名。)

由于这些机会不会经常出现，所以变化会分批出现。尽可能多的更改将被塞进尽可能短的窗口中。

这…太愚蠢了。(见开篇段落。)

不可避免的结论是:我们必须在尽可能短的停机时间内执行模式更改。只有通过最小化停机时间，我们才能增加部署频率，降低部署规模/复杂性，并交付更安全的模式更新。

根据我的经验，对于所有关于源代码控制和部署自动化的讨论，最小化停机时间的必要性并没有被那些拥有数据库模式并希望保护它们安全的人所理解。

这篇文章不是关于模式更新的自动化或执行的——还有许多关于这个的文章。这篇文章是关于最小化停机时间的模式。

重载术语:部署和发布

许多人交替使用“发布”和“部署”这两个词，没有考虑它们之间的区别。

如果您使用 Octopus Deploy(或类似的产品),那么您对“发布”的理解可能是工具中常见命名约定的结果。在大多数部署自动化工具中,“发布”是您的源代码的一个特定版本，一组配置变量，以及一组需要运行来执行“部署”的步骤。您可能会认为“发布”是被“部署”的东西。首先发布，然后部署。这对你来说很自然。

你是少数。

对大多数人来说，特别是对任何营销人员来说，“发布”是不同的。“发布”你的软件的一个新版本，或者最新的 iPhone，或者新的 Adele 专辑，就是要让它可用，并告诉人们。这个东西是预先创建的，后来才发布。最新的詹姆斯·邦德电影制作于 2020 年，但上映时间推迟到 2021 年。

当谈到零停机部署时，我们倾向于以第二种方式使用“发布”。部署是关于做出改变，但是发布是关于向我们的用户揭示那些改变。当我在这篇文章中使用“发布”时，我不是指部署的准备，我是指让用户看到更新。

区分部署变更和向用户发布/展示这些变更是至关重要的。这两件事不需要同时发生。事实上，正是分离这些事件的能力实现了零停机发布，以及其他各种令人兴奋的实践，如生产中的测试和一些快速回滚模式。

应用零停机模式

这篇文章是关于数据库部署的，但是数据库并不是孤立存在的。我们需要从一些背景开始。

支持零停机时间(更准确地说，接近零停机时间)的应用程序部署模式通常分为两类:

基于基础设施
基于应用的

基于基础设施的部署模式

基于基础设施的技术包括蓝/绿部署、金丝雀释放，以及集群免疫系统。它们通常基于巧妙的负载平衡技巧。新代码被部署在新的基础设施上，经过测试，并被添加到轮换中。

通过更改我们的负载平衡器中的设置，我们可以将流量发送到新的或旧的基础架构。这潜在地允许我们逐渐“发布”新版本。首先是 1%的生产流量，然后是 5%，10%，随着我们观察遥测数据、我们的社交媒体渠道和/或我们的支持票来检查一切是否顺利运行，逐渐节流。

如果一切顺利，该版本将逐步在全球推广。如果没有，我们可以通过撤销负载平衡器上的设置来立即恢复到旧版本。我们避免了任何就地升级，因此旧服务器仍在运行，并准备好在需要时接收全部负载。

基于应用程序的部署模式

基于应用的方法倾向于基于特征切换/标记。旧版本和新版本将被并排部署，但是哪个版本被执行可以通过代码和一些外部数据库来管理。

例如，也许我们已经有一个特性切换数据库在生产中运行。部署我们的新代码后，每次调用应用程序中的方法时，它都会查询 featuretoggle 数据库，以确定是否启用了某些功能。根据响应，它可以运行一个代码块或另一个代码块。也许 featuretoggle 数据库可以通过指示应用程序在 x%的时间内使用新代码来抑制首次展示。

这允许通过更改外部数据库中的设置来发布或回滚新功能。不需要额外的部署。

我们可以更进一步。也许，如果我们有一个新特性，但我们关心性能，我们可以运行两个代码块，但只在 UI 中显示旧的功能。这被称为黑暗启动，它允许工程师用现场生产工作负载测试他们的代码的性能，用一种简单的方法来调节或关闭新代码。

你可以在 Deploy！=释放。这也在devo PS 手册中有更详细的介绍。

基于基础设施的模式和基于应用程序的模式的共同点是，首先部署代码，然后以受控和可测试的方式发布，允许快速、几乎即时的回滚。

这对数据库意味着什么？向前向后兼容至关重要。

扩展/收缩，向前和向后兼容

如果我们希望在数据库中进行会影响我们的相关服务的模式更改，并且如果我们希望避免计划内停机，我们可能会遵循上面讨论的基于应用程序或基础设施的模式之一。无论哪种情况，我们都需要通过三个阶段来发展数据库。

**扩展:**对数据库的附加更改，以支持相关应用程序的新旧版本。
**部署:**部署、测试和发布新版本的应用程序。理想情况下是这个顺序。
契约:在首次展示之后，我们可以安全地删除旧的模式对象。

这个单一的大的重构需要多个小的模式变化。为了避免计划停机，每个变更必须具有以下属性:

可以独立于其他步骤或任何其他依赖项来执行
产生最小的风险
具有快速回滚选项(这可以避免数据丢失或重要和必要的数据处理，这可能会导致各种问题)

用一个例子来解释最简单:考虑将一个 fullName 列拆分成单独的 firstName 和 lastName 列。我们可以在没有任何危险的停机窗口或可怕的模式更新的情况下实现这一点，如下所示:

展开:

新列被添加到数据库中。(这没什么风险。)
如果使用存储过程来添加/更新/删除数据，则可以更新这些存储过程，以便添加/更新/删除旧列和新列。
现有数据在后台逐渐迁移。(这可以是无明显性能影响的滴加，如果有任何问题，可以暂停或停止该过程。)

现在数据库支持这两个版本。

卷展栏:

当旧列和新列中的数据可靠地同步时，任何读取的存储过程都可以指向新列。
如果应用程序直接引用列，而不是通过存储过程，那么使用上述的一种基础设施或基于应用程序的模式来部署新的应用程序版本。

现在新的东西在全球发行。

合同:

理论上，我们可以删除旧列。然而，在有许多缺乏文档记录的依赖项的系统中，我们总是有可能遗漏一些东西。最好先重命名旧列。(并更新任何更新了旧列的存储过程。)如果有人抱怨，我们可以通过恢复任何存储过程的旧版本，立即用另一个重命名来修复它。
在这两种情况下，经过一段时间后，我们应该安排删除旧列。没有人需要看到数百个附加了_toDelete的对象。(提示:试试_ToDeleteOn2021-12-01吧。它在一定程度上集中了人们的思想，我们甚至可以包装一些自动化的过程来备份和挑选旧的对象。)

重构完成。只要按照这个顺序执行这些步骤，每个步骤都可以单独执行。这些步骤都没有产生巨大的风险。如果有任何错误，每一步都可以很容易地恢复。

摘要

这是更新模式的一种更安全的方式。至关重要的是，由于它不需要任何停机时间，这些变更不需要批量发布。

可能会有一些读到这里的人认为这需要更长的时间。恐怕这些人仍然在考虑小的改变需要很长的准备时间。也许他们正在考虑变更审批委员会，或者他们正在为每一步设想单独的 JIRA 入场券。也许他们正在考虑对每一步进行单独的为期一周的测试。

忘掉这一切。

如果这个重构需要批准，它应该作为一个整体来审查，即使它是分步执行的。并且大多数测试和部署管道应该是自动化的。

是的:这个更难。没人说这会很容易。我们正在优化安全性，这需要严谨和努力。

当然，依赖关系越多，这就越难。有些人可能认为这不可行。当然，这个过程需要在任何依赖系统中进行一定程度的防御性编程和测试/遥测。

在理想的世界中，我们将与松散耦合的系统一起工作(参见我的系列文章的第 4 部分和第 5 部分的和 )。默认情况下，这些代码是防御性的，对数据库的依赖性大大降低。使这一切变得容易得多的属性。

如果您的系统是紧耦合的，也许现在您已经看到了松耦合的巨大好处。也许你也被眼前挑战的艰巨性吓到了:将你错综复杂的依赖关系网进化成更安全的东西。

下次

下一次，我们通过探索扼杀者模式来结束这个系列。一种安全重构复杂、紧密耦合系统的方法。

本系列其他文章的链接如下:

批判现有系统:

想象更好的系统:

构建更好的系统:

观看网络研讨会

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统

https://www.youtube.com/embed/9I9GdSQ1bbM?start=2401

VIDEO

愉快的部署！

安全模式更新——扼杀 monolith——Octopus 部署

原文：https://octopus.com/blog/safe-schema-updates-8-strangling-the-monolith

这篇博文是我的安全模式更新系列的第 8 部分，也是最后一篇。

批评现有系统:

想象更好的系统:

构建更好的系统:

到目前为止，在本系列中，我们已经详细讨论了采用更松散耦合的架构的好处，在这种架构中，子系统管理它们自己的数据。通过隐藏每个子系统的数据库内部，并强制所有的通信通过一些消息总线或 API 网关，我们避免了在数据库交付地狱中讨论的依赖性噩梦。我们还允许独立管理和更新子系统，从而降低管理开销，并简化供应和交付挑战。

在上一篇文章中，我们讨论了安全、接近零停机时间的发布模式，以及快速可靠的回滚选项。您已经有了动机和工具，但是我们还没有讨论任何从紧耦合到松耦合重构的指导性策略。

这篇文章旨在提供一个关于如何管理整个过程的概述。如题所示，我们将讨论扼杀者模式，但我们也将触及其他模式，包括:

在我们继续之前，让我们设定一些期望:这并不容易，也不是什么灵丹妙药。这将需要大量的时间/投资，这是你可能会分阶段进行的事情，并且需要考虑权衡。

天下没有免费的午餐。

扼杀者模式

让我们想象一个典型的依赖噩梦。

这种架构是多年来紧迫的期限、短期规划、技术债务、知识积累和员工流动累积的结果。即使在最好的情况下，信息共享也是困难的，但是现有的团队在没有完善的知识、可靠的文档或成熟的测试套件的情况下也在关注这个问题。

这个系统是有价值的。在这个错综复杂的网络中，有公司的“摇钱树”产品和一堆关键的内部系统，但也有一条被遗忘的、半生不熟的“次要项目”、被放弃的业务项目和退役的功能。很难只见树木不见森林。

我们需要用扼杀者程序来包装这块巨石。就像启发了这个架构的澳大利亚无花果树一样，我们的扼杀者应用程序是一种寄生虫，它会扼杀它的宿主，最终在这个过程中杀死它。

我们将从一个简单的代理开始。

起初，这个代理只是捕获所有的入站呼叫，并将它们重定向回预定的目的地。在功能上，我们没有做任何改变，但我们正在增加您的网络负载。考虑到松散耦合的架构会给网络带来更大的压力，在我们开始做更令人兴奋的事情之前，尽早发现并解决任何网络挑战是一个好主意。

接下来，我们决定将一部分功能扩展到一个独立的服务中。理想情况下，我们使用领域驱动设计来告知我们的选择(参见本系列中的第 4 篇和第 5 篇来回顾“DDD”)。也许我们正在构建的功能广泛地(或完全地)取代了一个或多个整体旧组件中的功能。无论哪种情况，这都是全新的代码，内部代码实现对其他系统是隐藏的。

注意，此时我们已经在生产中“部署”了服务，但是它还没有“发布”。(我使用了第 7 部分中“部署”和“发布”的定义，其中部署与复制文件相关联，而发布则是让最终用户可以进行更改。)这允许我们在生产中测试我们的新代码，而不将其暴露给我们的用户，同时生产流量仍然由旧代码安全地处理。

当我们测试了新代码后，我们可以通过代理中的配置更改来“发布”我们的新服务。如果我们检测到任何问题，我们可以通过恢复代理配置来立即回滚我们的更改。

还要注意，目前我们仍在使用原始数据库。在我们打破这种依赖之前，我们的服务不会真正地分离。我们现在需要分解数据库，使用第 7 部分中讨论的扩展契约模式。

作为临时措施，我们可能需要设置应用程序的旧版本和新版本，以更新旧数据库和新数据库。或者，我们可能需要创建一个额外的数据同步服务来确保两个数据库保持同步。

当我们确信不需要使用代理技巧执行快速回滚时，我们就可以开始仔细清理自己的工作了。如果我们可以很容易地确定哪些部分已经过时，我们可以试着移除它们。

我们只需要在旧的数据库(和任何数据同步应用程序)中保留我们新分离的服务的数据，直到我们确信新服务是健康的和完全分离的。例如，我们可以监视旧数据库中的读/写。假设一切都很平静，然后我们重命名我们的列或表，并等待电话铃响。如果一两个星期没有人打电话来，备份并删除旧的专栏以及任何数据同步服务可能是相当安全的。

现在，我们的新服务可以独立管理了。它更容易工作，因为开发人员没有对破坏依赖关系的持续恐惧，也没有与系统其余部分相关的认知开销。他们可以在他们喜欢的任何地方运行服务，并独立规划他们的部署时间表，不受任何与更广泛的整体相关的官僚主义的影响。

同样，整块巨石本身也变得简单了一点。

到目前为止一切顺利，但是如果我想提取的应用程序被深埋在巨石中呢？例如，如果它需要服务于来自 monolith 内部的请求呢？

抽象分支

在我们的第一个例子中，我们使用了一个代理来扼杀整个整体，但是对于一些内部组件，我们可以使用一些其他的应用程序、模块或类作为抽象点来捕获所有的内部请求。然后，与我们最初的代理一样，我们可以使用我们的抽象应用程序 it 来确定将流量转移到哪里。

在本例中，即使我们清理了旧的应用程序和数据库，我们仍然面临挑战。我们的数据库仍然相互依赖。希望我们可以重构系统，通过通信层处理这些依赖关系，数据处理由应用程序本身完成。由于本系列中讨论的所有原因，这将是有利的。但是，也不是没有取舍。

数据一致性与可用性

通过完全分离这些数据库，在许多方面我们的系统将变得更加安全和易于管理。更小的数据库，有更多的防火墙，可以独立更新。我们正在从但丁的数据库地狱中爬出来。

然而，除了与重构相关的开发成本之外，这种架构还有一系列不可忽视的缺点。

第一，性能。不管你喜欢还是讨厌关系数据库，都很难否认它们在数据处理方面做得非常好。编写良好的存储过程可以以可笑的速度处理数字。与发出网络请求、拉回大量数据并在应用程序层处理这些数据相关的延迟和网络负载相比，这是不争的事实。你的数据库依赖关系错综复杂，尽管有缺陷，但很可能为此做了很好的优化。你可能已经花了几十年来完善这种优化。

我们可以通过在我们的网络上投入一些(可能是非常需要的)投资和开发复杂的缓存系统来缓解一些性能问题，但我们需要诚实地说，即使有大量的投资，我们也不太可能达到同样的原始性能。

我们的下一个问题是一致性。外键是可爱的东西。当我们所有的数据都存在于单个关系数据库中时，我们可以使用外键来执行快速连接和强制引用完整性。在我们的数据被拆分到多个解耦的服务之后，我们(必然)牺牲了在这些服务之间使用传统外键的能力。

我们可以编写自己的外键来允许我们跨不同的服务执行连接，但是仍然没有可靠的东西来强制引用完整性。不管你喜欢还是讨厌关系数据库，它们在引用完整性方面都很棒。几十年来，RDBMS 一直是数据库领域的主导技术，对于我们大多数人来说，很难想象一个没有它的世界。

(对于某些用例，我们建议保留它。)

我们现有的整体可能是基于参照完整性的假设构建的。(因为为什么不是在 RDBMS 市场主导的时代？)但也有可能建立一个更有弹性的系统，而不是一个优先考虑稳健性的系统。(参见第 2 部分，了解弹性与稳健性的更多细节。)

如果我们的系统是为了优雅地处理破碎的依赖关系而构建的，我们能接受偶尔破碎的记录，以换取与松散耦合相关的更广泛的好处吗？我们如何处理那些破记录？也许我们可以做一些事情来发现、监控、修复或删除它们？

在我们走得太远之前，让我们先花点时间考虑一下我们可能如何在一开始就处于不一致的状态。好吧，我们在一个更加分布式的系统中面临的一个新的大问题是分区。

分割

让我们设想一个电子商务系统，它为购物车、库存和支付网关提供单独的服务。让我们想象一位顾客在他们的购物车里添加了一个可爱的章鱼玩具。购物车服务正在运行，支付服务也正在运行，因此我们可以处理订单。但是，库存服务已关闭。我们不知道我们是否有存货。

这是一个隔板。这不可能发生在一块巨石上。这是隐藏数据的松散耦合系统特有的问题。

(来源:这个例子，以及这篇文章的许多灵感，来自于《构建微服务的作者 Sam Newman 在 GoTo 2019 的一次演讲。)

VIDEO

你卖玩具吗？一方面，如果你不处理订单，你会失去销售。另一方面，如果你以后需要回去退款/道歉，你可能会让你的顾客不高兴。您需要权衡一致性和可用性。

对许多人来说，性能和一致性问题将是难以下咽的苦果。老实说，这种架构可能不适合所有系统。这些都是需要解决的棘手问题。

然而，在放弃松耦合的想法之前，先考虑一下好处。还记得但丁的数据库地狱的恐怖吗？提醒你自己从这个帖子中看到的我们的原图。想象一下，如果我们只设法把你的巨石的一半功能提取出来，做成看起来更像这样的东西，那会容易得多。

【T2 A loosely coupled software architecture

系列摘要

谢谢你坚持和我在一起。

这个系列开始时(我认为是)是一个关于零停机部署的简短帖子的简单想法。但是它一直在增长，增长，增长。我不断地偏离主题，在这里或那里又增加了两千字。第一稿冗长而复杂。很明显，我的大脑已经变成了一张错综复杂的依赖关系网。

它帮助我把我的想法分解成容易处理的部分。

独石当然有它的好处。(也许我应该写本书？)微服务不应该被视为某种完美的解决方案。他们不是金子弹。正如我们所讨论的，它们提出了一系列非常现实的挑战，尤其是在数据方面。从整体服务到微服务的旅程可能既漫长又昂贵。如果你半途而废，你可能会被留在一个可怕的混合体中，充满了挑战，却没有什么好处。

然而，好处也是巨大的。回想一下第一部分中的数据库交付地狱，现状可能也是不可持续的。我们需要用自己的判断来决定我们要在这条道路上走多远。

不管我们致力于哪种架构，本系列中讨论的技术实践都会有所帮助。在紧密耦合和松散耦合的系统中，自助服务供应和接近零停机时间的部署模式在服务弹性方面带来了显著的好处。(但是像大多数事情一样，它们在更小和更松散耦合的系统中特别有用和实用。)

祝你好运，无论你决定选择哪条路。

进一步阅读

如果你想了解更多关于这篇文章的话题，我推荐你去看萨姆·纽曼的演讲(如上)。

如果您想更深入地了解本系列中讨论的概念，以下书籍是一个很好的起点:

本系列其他文章的链接如下:

批评现有系统:

想象更好的系统:

打造更好的系统:

观看网络研讨会

我们的第一个网上研讨会“想象更好的系统”讨论了松耦合架构如何带来可维护性、创新性和安全性。

第二部分，构建更好的系统，讨论了如何将一个成熟的系统从一种架构转换到另一种架构。

数据库开发:想象更好的系统

VIDEO

数据库开发:构建更好的系统