最直接查当前调度算法的方式是读取/sys/block/设备名/queue/scheduler,如cat /sys/block/sda/queue/scheduler显示[noop] deadline cfq;NVMe设备返回none属正常,因其由硬件自行调度。
最直接的方式是读取 /sys/block/设备名/queue/scheduler,它会显示当前激活的调度器,以及所有可用选项(括号里标出的是当前选中项):
cat /sys/block/sda/queue/scheduler [noop] deadline cfq
注意:sda 要替换成你实际的磁盘设备名(可用 lsblk 查看)。如果看到多个设备,比如 sda 是 SSD、sdb 是 HDD,它们可以且应该配置不同调度器。
常见错误现象:执行 cat /sys/block/nvme0n1/queue/scheduler 却返回 none 或空——这是正常的,NVMe 设备默认不启用内核 I/O 调度器(由硬件控制器自行调度),强行写入会报错 Invalid argument。
Deadline 的核心不是“快”,而是“不饿死”:它为每个读请求设 500ms 截止时间、写请求设 5s 截止时间,确保事务不会卡在队列尾部无限等待。这对 MySQL 的 innodb_flush_log_at_trx_commit=1 场景尤其关键。
iostat -x 显示 await 波动变大?这是正常行为——Deadline 主动放弃长等待请求去服务新请求,await 均值失真,应重点关注 %util 和 r/s/w/s
Noop 就是纯 FIFO 队列,不做排序、不计算截止时间,CPU 占用几乎为零。对 NVMe 或 SATA SSD 效果明确,但遇到某些老款 RAID 卡(如 LSI MegaRAID 9260)时可能适得其反:
Noop,等于放弃请求合并机会,小 IO 碎片加剧Noop 后随机写 IOPS 下降 18%,改用 deadline 反而更稳iostat -x 1,若 avgrq-sz 长期低于 8(即平均请求小于 4KB),说明上层没做有效合并,此时 Noop 不一定是最佳选择CFQ 按进程分队列、按时间片轮转,听起来很理想。但在 Docker/Kubernetes 场景下,问题来了:
,CFQ 会把它们视作“一个进程”,结果一个容器突发流量就能吃掉全部 I/O 带宽blkio.weight 限制,但 v2 默认关闭 blkio controller,需手动启用:systemctl set-property --runtime -- system.slice "IOWeight=100"
deadline,用应用层限流(如 Nginx 的 limit_req)替代内核级公平性真正影响调度效果的,从来不是算法名字,而是你的硬件拓扑、I/O 模式、以及是否混淆了“调度器该管什么”和“该由谁来管”。比如日志刷盘慢,先看 vm.dirty_ratio 是否堵住 writeback,而不是急着换调度器。