Linux中内核抢占相关的基础知识-电子发烧友网

今天要分享的是抢占相关的基础知识。本文以内核抢占为引子，概述一下 Linux 抢占的图景。我尽量避开细节问题和源码分析。

什么是内核抢占？

别急，咱们慢慢来。

先理解抢占（preemption）这个概念：

involuntarily suspending a running process is called preemption

夺取一个进程的 cpu 使用权的行为就叫做抢占。

根据是否可以支持抢占，多任务操作系统（multitasking operating system）分为 2 类：

1、cooperative multitasking os

这种 os，进程会一直运行直到它自愿停下来。这种自愿停止运行自己的行为称为 yielding。协作式多任务系统，一听就知道这是一个乌托邦式的系统，只有当所有进程都很 nice 并乐意经常 yielding 时，系统才能正常工作。如果某个进程太傻或者太坏，系统很快就完蛋了。

2、preemptive multitasking os

这种 os，会有一个调度器（scheduler，其实就是一段用于调度进程的程序），scheduler 决定进程何时停止运行以及新进程何时开始运行。当一个进程的 cpu 使用权被 scheduler 分配给另一个进程时，就称前一个进程被抢占了。

你可以把 sheduler 想象成非常智能的交警，交警按照一定的交通规则、当前的交通状况以及车辆的优先级（救护车之类的），决定了哪些车可以行驶、哪些车要停下来等待。

很明显，现阶段，preemptive os 优于 cooperative os。所以 Linux 被设计成 preemptive。

抢占的核心操作包括 2 个步骤：

1、从用户态陷入到内核态（trap kernel），3 个路径：

a. 系统调用，本质是 soft interrupt，通常就是一条硬件指令（x86 的 int 0x80）。

b. 硬件中断，最典型的就是会周期性发生的 timer 中断，或者其他各种外设中断。

c. exception，例如 page fault、div 0。

2、陷入到内核态后，在合适的时机下，调用 sheduler 选出一个最重要的进程，如果被选中的不是当前正在运行的进程的话，就会执行 context switch 切换到新的进程。

根据抢占时机点的不同，抢占分为 2 种类型：

1、user preemption

这里的 user 并不是指在 user-space 里进行抢占，而是指在返回 user-space 前进行抢占，具体的：

When returning to user-space from a system call

When returning to user-space from an interrupt handler

即从 system call 和 interrupt handler 返回到 user-space 前进行抢占，这时仍然是在 kernel-space 里，抢占是需要非常高的权限的事情，user-space 没权利也不应该干这事。

2、kernel preemption

Linux 2.6 之前是不支持内核抢占的。这意味着当处于用户空间的进程请求内核服务时，在该进程阻塞（进入睡眠）等待某事（通常是 I/O）或系统调用完成之前，不能调度其他进程。支持内核抢占意味着当一个进程在内核里运行时，另一个进程可以抢占第一个进程并被允许运行，即使第一个进程尚未完成其在内核里的工作。

支持内核抢占 vs 不支持内核抢占

在上图中，进程 A 已经通过系统调用进入内核，也许是对设备或文件的 write（）调用。内核代表进程 A 执行时，具有更高优先级的进程 B 被中断唤醒。内核抢占进程 A 并将 CPU 分配给进程 B，即使进程 A 既没有阻塞也没有完成其在内核里的工作。

内核抢占的时机：

When an interrupt handler exits， before returning to kernel-space

When kernel code becomes preemptible again

If a task in the kernel explicitly calls schedule（）

If a task in the kernel blocks （which results in a call to schedule（））

为什么要引入内核抢占？

根本原因：

trade-offs between latency and throughput

在系统延迟和吞吐量之间进行权衡。

并不是说内核抢占就是绝对的好，使用什么抢占机制最优是跟你的应用场景挂钩的。如果不是为了满足用户，内核其实是完全不想进行进程切换的，因为每一次 context switch，都会有 overhead，这些 overhead 就是对 cpu 的浪费，意味着吞吐量的下降。