KVM他说的基于内核的虚拟机是什么意思呢？

http://www.zhihu.com/question/24123210

vmware workstation和virtual box就不是基于内核的虚拟机吗？
它这样做有哪些好处呢？对于物理机和虚拟机而言分别有那些好事呢？

++++++++++++++++++++++++++++

作者：in nek
链接：http://www.zhihu.com/question/24123210/answer/100874195
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这个问题下面好几个答案是完全错的，也有些是对的，但写得很简单，看相关的讨论，估计读者都没有读懂。这里的关键问题是概念比较乱，我来帮忙整理一下。

下面的概念定义很多来自我自己的定义，但和现有的概念基本上不会冲突，也应该更容易帮助读者理解虚拟化技术，所以我猜应该没有什么问题。

虚拟化技术，一般理解上，是在一个操作系统之上，模拟另一个操作系统的执行环境。我们看到的各种游戏机模拟器，还有为开发CPU做仿真而做的模拟程序，就是早期比较常见的虚拟化解决方案，它的工作原理很简单：把CPU的所有寄存器都写在一组变量中（这组变量我们称为CPUFile），然后用一片内存当作被模拟CPU的内存（这片内存这里称为vMEM），然后在用一些数据结构表示IO设备的状态（这里称为vIO），三者的数据结构综合在一起，就是代表一个虚拟化的环境了（这里称之为VM），之后按顺序读出一条条的指令，根据这个指令的语义，更改VM的数据结构的状态（如果模拟了硬件，还要模拟硬件的行为，比如发现显存被写了一个值，可以在虚拟屏幕上显示一个点等），这样，实施虚拟的那个程序就相当于给被虚拟的程序模拟了一台计算机，这种技术，我称它为“解释型虚拟化技术”。指令是被一条一条解释执行的。

在这个方案中，我们有三个对象：
Host：执行虚拟程序的系统
Emulator：实施虚拟的，运行在Host上的那个程序
Guest：被虚拟出来的系统，也就是运行了软件（例如操作系统）的VM

这些概念在技术演进的过程中会一定程度变化，读者要注意这一点，记住它的原始含义，否则很容易乱掉。

解释型虚拟化技术很简单，直接，概念也容易理解，但很明显，这个效率是很低的。优化得比较成功的是qemu，它使用一种所谓“编译型”的技术，把每条被虚拟的设备的指令都写成一段C代码，用这段C代码去修改CPUFile等VM数据，然后再用编译器去编译这些C代码，借用了编译器的优化能力，最后在解释Guest的指令的时候，用一个“翻译区“，把这些C代码的编译结果拼起来，然后直接执行。这种方法有效提高了”解释”的效率（所以qemu才称为Quick-emulator），但效率很明显还是非常低的。Android的SDK模拟基于ARM的手机，用的就是这种技术。

随着技术的发展，有人就开始取巧了：很多时候，我们仅仅是在x86上模拟x86，这些指令何必要一条条解释执行？我们可以用CPU直接执行这些指令啊，执行到特权指令的时候，我们直接异常，然后在异常中把当前CPU的状态保存到CPUFile中，然后再解释执行这个特权指令，这样不是省去了很多”解释“的时间了？用这种技术实现的虚拟机，就称为”调度型虚拟化技术“，这种情况下，Emulator的主要工作就不是解释了，它的主要工作是调度，调度Host和所有的Guest来分时（或者分核）使用CPU。

qemu也可以工作在这种模式。要工作在这种模式，它需要在内核中插入一个kqemu.ko，以便处理那些特殊的，由它的模拟程序产生的异常。

这种情况下，我们会发现，Emulator已经不是原来那个意思了，虽然我们仍需要使用这个程序，但仅仅靠这个程序，它作为Host上的一个程序，没有办法调度Host的资源。所以我们引入另一个实体，所谓Hypervisor，Hypervisor负责调度，Emulator只是给它提请求而已。

（这里，Emulator的语义也发生变更了，读者有必要注意这一点）

Hypervisor需要掌控整个系统的资源，这样它就需要有所有设备的驱动，这样会让Hypervisor变得非常复杂的。所以Host的概念仍然存在，一种简化的理解可以是，BIOS启动Hypervisor，Hypervisor首先启动第一个OS，那个就是Host，之后Host上的Emulator启动Guest，Emulator向Hypervisor请求资源，Hypervisor模拟一个环境给新的Guest，但如果Guest向Hypervisor请求IO或者其他特殊能力，这些请求就会被Hypervisor调度到Host上，让Host执行。

在Xen上，这个Host称为DOM0，说明Xen是认为Host和Guest在调度上没有本质区别的，都是一个调度的对象，但DOM0带有所有的驱动，管理程序也可以放在这里直接和Hypervisor通讯。

好了，现在你可以明白为什么KVM称为”内核（K）的VM"技术了，Xen的Hypervisor是一个独立的部件，由BIOS（其实是grub了）直接加载，然后和DOMx的各个操作系统通讯。而KVM的Hypervisor直接就是内核的一部分，这个Hypervisor的代码直接就在Linux的内核中，当Host启动的时候，它们一起加载，一同初始化，只是Hypervisor的代码工作在虚拟机调度器的状态，而其他代码工作在普通内核状态而已。

这个用ARM64平台特别好理解，ARM64平台（不考虑安全态）3个特权级，EL0用户态，EL1内核态，EL2 Hypervisor态。这样，内核启动先进入EL2，初始化Hypervisor部分的状态，然后切换入EL1，初始化内核的状态，然后才fork init，进入EL0。这之后，你启动qemu-kvm，这个程序就可以通过系统调用（对/dev/kvm文件做ioctl）进入内核，调用KVM的请求，执行调度，从内核中直接做Hypervisor请求，进入Hypervisor要求调度Guest。

这样，很明显，KVM确实是”Linux内核提供的虚拟化技术“，这就是它和其他虚拟化技术不同的地方了。

vmware和virtualbox的技术和Xen类似，无论它们如何加载，是否独立，或者作为一个内核模块加载，毕竟它们不是内核原始设计的一部分。

至于是全虚拟化（Guest不知道你自己是被模拟的系统），还是Para虚拟化（Guest知道自己是模拟的系统，用直接和Hypervisor通讯的方法实现IO），这个问题和是否KVM没有关系（kvm两种模式都可以支持），和性能也没有关系。这仅仅是构架的不同。

讨论区有读者问，为什么没有看到VirtualBox从BIOS加载Hypervisor呢？这个涉及到两个要素：

第一，kqemu.ko也可以不从BIOS加载，这种模式我仍把kqemu称为Hypervisor，但这个Hypervisor并非工作在Hypervisor状态，它是和内核互相妥协从而工作在Hypervisor的角色上的，它的工作级别并不比Host高，但仍可以为Guest模拟出一个运行环境来。VirtualBox使用一样的技术。

第二，VirtualxBox还可以支持VT-x这样的硬件加速的虚拟工作状态。这个事情和VT-x的设计有关，VT-x的特权级继承自传统的x86特权级，就是0-3，0是最高优先级，3是最低优先级。像Linux就只用了0和3级表示内核和用户态。刚开始支持虚拟化的时候，Intel考虑0是Hypervisor级（VMM级），1是内核，3是用户。但这种设计造成不兼容和复杂度。所以到了64位后，新的模式是：系统刚启动的时候，是Host态0级，在这个级别你可以用VMXON进入VMM级，然后你可以在这个级别创建虚拟机，再用VMXON进入虚拟机，VMXOFF退出虚拟机。虚拟机中仍可以有0-3级。这样一来，在Host中，你只要能进入0级，就可以把自己提升到VMM级。VirtualBox只要能在内核中插入一个模块，就可以为自己获得VMM的权限。但这个方法在ARM64上是行不通的。

（读者应该已经注意到了，这里面的定义在整个发展过程中不断发生语义的变化，这造成很多人对技术误解，所以，我们理解计算的概念，更多看我们如何用和如何建模，如果你认为某个概念是持久不变的，基本上你很快就被计算机技术抛弃了。因为基于概念保持部分使用模式不变，然后进行技术演进，是计算机发展的常态）

posted @ 2016-06-13 21:19 张同光阅读(291) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· Manus爆火，是硬核还是营销？
· 终于写完轮子一部分：tcp代理了，记录一下
· 别再用vector＜bool＞了！Google高级工程师：这可能是STL最大的设计失误
· 单元测试从入门到精通

公告

昵称：张同光
园龄： 8年11个月
粉丝： 70
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

张同光 (Tongguang Zhang)

张同光 (Tongguang Zhang)：Hello everyone !
Let us make progress together every day ! —— 微信号：ztguang

KVM他说的基于内核的虚拟机是什么意思呢？

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (929)

随笔档案 (3269)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

张同光 (Tongguang Zhang)

张同光 (Tongguang Zhang)：Hello everyone ! Let us make progress together every day ! —— 微信号：ztguang

KVM他说的基于内核的虚拟机是什么意思呢？

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (929)

随笔档案 (3269)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

张同光 (Tongguang Zhang)：Hello everyone !
Let us make progress together every day ! —— 微信号：ztguang