Ironic 裸金属管理服务的底层技术支撑
2019-05-07 17:32 云物互联 阅读(1369) 评论(0) 编辑 收藏 举报目录
底层技术支撑
- PXE:预启动执行环境,支持客户端通过网络从 TFTP Server 下载操作系统镜像,并由此支持通过网络启动操作系统引导程序。
- IPMI:智能平台管理接口,一种开放标准的硬件管理接口规范,通过 IPMI 可以控制物理服务器的电源、配置启动顺序、查看 KVM Console 等。
- DHCP:动态主机配置协议,给局域网内的主机分配 IP 地址。
- TFTP:简单文件传输协议,客户端与服务器之间进行简单文件传输的协议。相比 FTP,简单且开销小。
- NBP:网络启动程序,自动加载并运行操作系统。
DHCP
Dynamic Host Configuration Protocol (DHCP): DHCP is a standardized networking protocol used on Internet Protocol (IP) networks for dynamically distributing network configuration parameters, such as IP addresses for interfaces and services. Using PXE, the BIOS uses DHCP to obtain an IP address for the network interface and to locate the server that stores the network bootstrap program (NBP).
NBP
Network Bootstrap Program (NBP): NBP is equivalent to GRUB (GRand Unified Bootloader) or LILO (LInux LOader) - loaders which are traditionally used in local booting. Like the boot program in a hard drive environment, the NBP is responsible for loading the OS kernel into memory so that the OS can be bootstrapped over a network.
TFTP
Trivial File Transfer Protocol (TFTP): TFTP is a simple file transfer protocol that is generally used for automated transfer of configuration or boot files between machines in a local environment. In a PXE environment, TFTP is used to download NBP over the network using information from the DHCP server.
IPMI
Ironic 使用 IPMI 来控制裸机的上下电、设置开机启动顺序(PXE 启动或本地磁盘启动)、获取电源状态、获取传感器状态、控制台重定向等。在裸机上架自检阶段会配置裸机的 BMC,包括 IP 地址、掩码、网关、用户名和密码。然后将 IPMI 的 IP 地址、用户名和密码注册到 Ironic 数据库。这样 Ironic 就可以获取到裸机的电源状态、执行开关机以及设置开机启动顺序了。
IPMI(Intelligent Platform Management Interface,智能平台管理接口)是一项应用于服务器带外管理系统设计的标准,通过特有的硬件设备而不是操作系统网络连接来对服务器进行电源的手段。IPMI 能够横跨不同的操作系统、固件和硬件平台,可以智能的监视、控制和上报服务器的运作状况(e.g. 远程开启、关闭电源)以及健康特征(e.g. 温度、电压、风扇工作状态、电源状态等)。IPMI 良好的自治特性克服了以往基于操作系统的管理方式所受的限制,实现了在操作系统不响应或未加载的情况下仍然可以对其进行开关机、信息提取等操作。Ironic 正是利用此技术可以远程的对裸机进行上下电或者其他操作,而不是依赖物理开关或者操作系统。
IPMI 的核心是 BMC(Baseboard Management Controller ,底板管理控制器),BMC 通常是一个安装在服务器主板上的独立板卡,其不依赖于服务器的处理器、BIOS 或操作系统来工作,可谓非常地独立,是一个单独在系统内运行的无代理管理子系统。BMC 与主板上的不同传感器通信来监视系统是否有严重事件,并在某些参数超出其预置阈值时发出警报和日志事件。所有的 IPMI 功能都是向 BMC 发送命令(IPMI 规范中规定的指令)来完成的,BMC 接收并在系统事件日志中记录事件消息,维护描述系统中传感器情况的传感器数据记录。
当需要对系统文本控制台进行远程访问时,IPMI 的 SOL(Serial Over LAN,LAN 上串口)功能非常关键。SOL 通过将 IPMI 会话重定向到本地串行接口,允许远程访问 Windows 的紧急事件管理控制台(EMS)特殊管理控制台(SAC)或访问 Linux 的串行控制台。BMC 通过在 LAN 上重定向串行端口的信息来做到这点,从而提供了一种与服务器厂商无关的远程查看 OS BootLoader 或紧急管理控制台来诊断和维修故障的标准方式,IPMI 甚至允许在操作系统引导阶段配置各种组件。
BMC 具有以下功能:
- 通过系统的串行端口进行访问
- 故障日志记录和 SNMP 警报发送
- 访问系统事件日志和传感器状况
- 远程开、关机
- 独立于系统电源或工作状态的支持
- 用于系统设置、基于文本公用程序和操作系统控制台的文本控制台重定向
ipmitool 操作示例:
- 改变服务器引导方式
ipmitool -I lan -H <server_ip> -U root -P passwd chassis bootdev pxe
ipmitool -I lan -H <server_ip> -U root -P passwd chassis bootdev disk
ipmitool -I lan -H <server_ip> -U root -P passwd chassis bootdev cdrom
- 服务器电源管理
# 硬关机,直接切断电源
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power off
# 软关机,即如同轻按一下开机扭
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power soft
# 硬开机
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power on
# 硬重启
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power reset
# power off, wait 1s, power on
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power cycle
# 获取当前电源状态
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power status
PXE & iPXE
Ironic 使用 PXE 引导启动 Deploy Image(RAMDisk),且 RAMDisk 内含有 IPA,是 Agent 部署方式的基础。PXE 的使用需要借助于 DHCP 服务器和 TFTP 服务器。DHCP 服务器主要给裸机的 PXE 网卡分配 IP 地址、传递 TFTP 服务器的 IP 地址以及 NBP 文件的位置信息。PXE 从 TFTP 服务器下载并执行 NBP 文件,根据 NBP 文件的执行结果,从 TFTP 服务器下载内核和系统文件并加载。此时的裸机就进入了 RAMDisk 系统,IPA 自启动后,会与 Ironic 取得联系并发送心跳。Ironic 控制 IPA 进行 User Image 的下载与安装。安装后,Ironic 设置裸机从根磁盘启动,并重启进入用户的操作系统。
PXE(Preboot Execute Environment,预启动执行环境),采用 C/S 架构,支持终端通过网络从远端服务器下载映像,并由此支持通过网络启动操作系统。PXE 是目前主流的无盘启动技术,它可以使计算机通过网络而不是从本地硬盘或光驱等设备启动。利用 PXE 进行系统安装需要被安装的主机上有 PXE 支持的网卡,现在的网卡一般都内嵌支持 PXE 的 ROM 芯片。当计算机引导时,BIOS 首先会把 PXE Client 调入内存中执行,PXE Client 被载入内存后,它便同时具有 DHCP Client 和 TFTP Client 的功能,DHCP Client 会向 DHCP Server 请求 IP 分配给将要安装 操作系统的终端主机,然后由 PXE Client 将放置在远端的启动软件包通过 TFTP(Trivial File Transfer Protocol)或 MTFTP(Multicast Trivial File Transfer Protocol)下载到本地内存中执行。由这个启动软件包完成终端的基本软件设置,从而引导预先安装在服务器中的终端操作系统。iPXE 是 PXE 的扩展版,支持更多的协议,兼容性更好,不挑网卡。支持 HTTP 协议,可以通过 HTTP、ISCSI SAN、FC SAN 等方式启动。iPXE 的官方网站:http://ipxe.org/
PXE 安装引导过程:
- 终端从 PXE 网卡启动,向带内网络中的 DHCP 服务器索取 IP 地址和搜寻引导文件的位置。
- DHCP 服务器返回分给终端 IP 以及 NBP(网络启动程序,会自动加载引导文件并运行操作系统)文件的路径(通常为 TFTP 服务器)。
- 终端从带内网络中的 TFTP 服务器下载 NBP。
- 终端得到了 NBP 后自动从 TFTP 服务器下载引导文件,比如:pxelinux.0(GRUB)、vmlinuz(内核文件),initrd(内存驱动盘)等文件。
- 安装操作系统
Cloud Init
Ironic 通过集成在 User Image 中的 cloud-init 来完成操作系统配置信息的初始化,包括创建用户、修改密码、配置网络等。
详情请浏览:《Openstack 实现技术分解 (2) 虚拟机初始化工具 — Cloud-Init & metadata & userdata》
Linux 操作系统启动引导过程
- 起电
- 加载主板 BIOS(主板固体程序)
- BIOS 检测硬件是否有故障
- BIOS 到 MBR(Master Boot Recorder,主引导记录)中寻找启动介质,MBR 的 512B 由 BootLoader 446B、分区表 64B 以及校验结束位 2B 组成。
- 常见的 BootLoader 有 GRUB2,它会将保存在 /boot 的 Kernel 加载到 RAM。
- 加载 Kernel 后,GRUB2 跳转到 Kernel 的入口运行,正式启动操作系统。
注:GRUB2 的本质是一个微型操作系统,可以识别常用的文件系统。GRUB2 运行时会读取配置文件 /boot/grub2/grub.cfg,在 grup.cfg 中可以记录若干个 Kernel 条目,均以 menuentry 开头。menuentry 以 {} 包含了相应的启动项,linux16 这行指定 Kernel 的路径和启动参数。e.g.
menuentry 'CentOS Linux (3.10.0-957.10.1.el7.x86_64) 7 (Core)' --class centos --class gnu-linux --class gnu --class os --unrestricted $menuentry_id_option 'gnulinux-3.10.0-862.el7.x86_64-advanced-12253837-a340-4053-b3e8-3140da283a41' {
load_video
set gfxpayload=keep
insmod gzio
insmod part_msdos
insmod xfs
set root='hd0,msdos1'
if [ x$feature_platform_search_hint = xy ]; then
search --no-floppy --fs-uuid --set=root --hint-bios=hd0,msdos1 --hint-efi=hd0,msdos1 --hint-baremetal=ahci0,msdos1 --hint='hd0,msdos1' c78b0a6e-7906-4f1f-9667-c61741a4b5ee
else
search --no-floppy --fs-uuid --set=root c78b0a6e-7906-4f1f-9667-c61741a4b5ee
fi
# 根分区的位置
# 以只读方式挂载根分区
# rhgb(以图形化方式显示启动过程)
# quiet(启动过程出现错误提示)
# 字符集
# 键盘布局
# 语言
linux16 /vmlinuz-3.10.0-957.10.1.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet LANG=en_US.UTF-8
initrd16 /initramfs-3.10.0-957.10.1.el7.x86_64.img
}
initrd16 指定了 initramfs image 的位置,initramfs 是 initrd 的升级版,改进了后者不能调整大小的缺点。但两者的本质都是 boot loader initialized RAM disk,即在系统初始化引导时加载的 RAMDisk 设备,本质是一个小型的根目录。RAMDisk 内含了启动阶段中必须的驱动模块,可执行文件和启动脚本,并且这些程序可以在 /initrd 根目录上执行,不需要等到挂载了真正的根目录 (’/’) 之后才能被执行。RAMDisk 的存在完善 Kernel 的模块机制,让内核的初始化流程更具弹性。其中的 udevd 可执行文件在自动加载了磁盘驱动程序之后就可以 Mount 并切换到真正的根目录了。