Linux下Power Management开发总结

本文作为一个提纲挈领的介绍性文档，后面会以此展开，逐渐丰富。

1. 前言

在《开发流程》中介绍了PM开发的一般流程，重点是好的模型、简单有效的接口参数、可量化的测试环境以及可独性强的输出。

内核中功耗开发无论是新模型开发还是已有模型的调优，都需要了解现有的框架，遵循已有框架，简单有效的修改。这就需要了解《Android/Linux内核Power Management知识点》，关于Linux省电，从开机-->运行-->suspend-->关机这四种状态，开机/关机不太受关注，但是足够快也是省电的一种。

在进入细节之前，了解一下Linux中PM框架(PM COMMON)有助于下面学习。

suspend(SUSPEND)是一种深层次的省电，运行态情况下省电就八仙过海各显神通了。如果将电流曲线以timeline形式画出，功耗就是曲线覆盖的阴影面积了。一个任务来看，面积越小越好，当然时间也要满足需求。

suspend是系统级省电，涉及到各外设、Memory、CPU等等各种设备，总之是尽量关闭。只保留不能断电部分用于唤醒系统，以及系统恢复，比如外设唤醒中断、RAM Retention等。suspend本身也有不同种类，mem/standby/hibernation。大部分使用的还是mem，即suspend to ram。此时内核处于冻结状态(PROCESS FREEZE)，系统tick停止，只有中断将其从睡眠唤醒才会去处理任务。

在系统运行过程中省电，则要复杂多变多了。对于CPU在工作是根据负载动态调频调压(CPUFREQ)，没有工作处理的时候进入IDLE(CPUIDLE)，更进一步在多核情况下CPU都可以被热插拔(CPU HOTPLUG)；对于各种其他外设可以根据是否被使用而动态关闭(RUNTIME PM)。当然这些调节都要保证性能的输出(PM QoS)。

在系统运行过程中，高温可能导致设别损坏，因此根据温度来分配功耗也是一门必要手段(THERMAL)。

当然省电也离不开一些基础功能比如时钟控制(CLOCK)、供电开关(REGULATOR)、电源域划分(POWER DOMAIN)，以及内核和应用都会用到的睡眠锁、唤醒源、唤醒事件都可以归到唤醒事件框架中(WAKEUP EVENT)。

系统的供电是使用AC还是电池，备抽象成POWER SUPPLY。

工欲善其事，必先利其器。没有一个好的工具环境，去量化，只会一抹黑，如何验证模型正确与否？如何确定参数是否调优？《开发工具介绍》中介绍了ARM开源的两款工具Workload Automation和LISA，以及一些自己开发的工具集。

在了解开发对象和有了工具之后，当然要去试一试了。《优化实战记录》中详细记录的工具的使用、优化流程和结果。

在文章的结尾，对一些其相关点进行了罗列与总结《功耗知识点补充》。

2. 开发流程

针对一个PM feature进行开发，设计模型是第一步。模型设计好之后，还要保留参数接口，可以基于这些参数针对特殊个体进行优化。

建立一个可以快速迭代、准确可靠、可量化的验证环境尤其重要。一方面可以验证设计的模型是否有效、正确；另一方面还可以调整找到最适合的参数。

针对嵌入式设备来说，最主要的是达到性能和功耗的平衡：在满足性能要求的前提下，尽量降低功耗。

这就涉及到如何去量化性能（Performance）和功耗（Power）。

量化功耗比较简单，可以通过Power Monitor在测量点获得数据（测量点的确定很重要！）；量化性能就比较复杂了，针对不同的功能模块，需要不同的性能分析工具。

另外，针对不同的模块，可能需要产生特定的workload。

最后，可读性强的统计信息或者可视化图表也更有利于得出分析结果。

以LISA为例，可以使用workload rt-app产生特定调度侧率，运行时间，运行在特定CPU上的线程，保证运行环境一致。

通过devlib可以获得测试过程中的Power Monitor数据。

然后通过IPython脚本在浏览器中生成可视化图表和统计信息。

开发流程

1.设计模型：根据需求在已有框架中设计新的模型（Thermal中的IPA），或者设计一个全新的功耗模型（如EAS）。目前阶段主要是跟踪追随现有功耗模型。

2.内核实现：基于之前功耗模型，在内核中代码实现。

3.验证环境：建立验证模型的环境，一方面要有量化Performance的工具，另一方面还需要量化Power的工具。

4.模型正确与否?：通过验证环境可以查看模型是否符合预期，如果不符合就重新进行设计。

5.调整模型：根据第4步验证结果，重新调整模型缺陷。

6.优化算法：验证算法是否高效，是否更有效的提升Performance，降低Power。

3. Android/Linux内核Power Management知识点

3.1 PM COMMON

《Linux电源管理(1)_整体架构》从更高的层次介绍了电源管理，供电(PowerSupply)，电池设备还需要充电(Charger)，设备运行需要时钟(Clock)，所在的电源域(PowerDomain)，不同电压调节器(Regulator)，调频调压(DVFS)以及睡眠唤醒(Suspend)，保证功耗服务质量的QoS等等。

传统的粗粒度《Linux电源管理(2)_Generic PM之基本概念和软件架构》关注关机、重启、睡眠、冬眠(Hibernate)。

重启、关机有着相似的《Linux电源管理(3)_Generic PM之Reboot过程》。

设备的功耗管理遵循着统一的《Linux电源管理(4)_Power Management Interface》，bus_type/device_driver/class/device中都嵌入了dev_pm_ops 。

3.2 SUSPEND

suspend能提供最深层次的省电，对外接口是/sys/power/state，一般由用户空间触发。suspend、wakeup、hibernate、sleep、str、str等等概念容易混淆，《Linux电源管理(5)_Hibernate和Sleep功能介绍》对其进行了区分，并架构上以及sysfs进行了介绍。

往/sys/power/state写入mem可以触发《Linux电源管理(6)_Generic PM之Suspend功能》，suspend流程有着明晰的划分：PM Core-->Device PM-->syscore-->machine，同样的resume有着对应的阶段，但是顺序是反过来的。

《Linux电源管理(12)_Hibernate功能》和suspend有着明显的区别，hibernate则是将本应保存到RAM中的内容保存到了存储设备上了，可以更加省电。

对suspend的优化，因为其涉及到进程冻结、脏数据回写、各种外设的suspend、CPU等等内容，很容易引入问题，需要将其流程细分。

将suspend流程划分为不同phase，尤其Device相关需要在进行细分。而且基于Function call graph，甚至可以细节到每个函数执行时间。基本上达到了像素级的优化。

suspend的工具《Linux suspend分析优化工具——analyze_suspend.py》以及基于此的优化实例《Suspend to RAM和Suspend to Idle分析，以及在HiKey上性能对比》，详细介绍了工具和如何使用。

基于以上analyze_suspend.py思想，重新写了个简单的分析工具(TBC).

内核节点：

/sys/power/state

/sys/kernel/debug/tracing/events/power/suspend_resume

/sys/kernel/debug/suspend_stats

3.3 WAKEUP EVENT

具备唤醒功能的设备被称为wakeup source，它产生的唤醒时间被称为wakeup events。

《Linux电源管理(7)_Wakeup events framework》介绍了Linux内核wakeup events框架，它也是wakelock、wakeup count以及autosleep的基础。

《Linux电源管理(8)_Wakeup count功能》主要用于suspend同步，《Linux电源管理(9)_wakelocks》提供了内核和用户空间的wake lock。

《Linux电源管理(10)_autosleep》受用户触发将suspend操作放入有序队列autosleep_wq。

内核节点：

/sys/kernel/debug/tracing/events/power/wakeup_source_*

/sys/kernel/debug/wakeup_sources

3.4 RUNTIME PM

设备影响功耗的行为《Linux电源管理(13)_Driver的电源管理》，主要有是否具备唤醒能力，设备wakelock阻止系统进入唤醒的能力，从《Linux电源管理(14)_从设备驱动的角度看电源管理》看，驱动相关的功耗行为包括suspend/resume/shutdown/poweroff/rumtime，传统的suspend/resume逐渐被抛弃，《Linux电源管理(11)_Runtime PM之功能描述》的runtime_suspend/runtime_resume/runtime_idle更加灵活高效。

设备的RPM和cpuidle的深睡结合，功耗比较接近suspend了。

内核节点：

/sys/kernel/debug/tracing/events/rpm

3.5 CPUIDLE

CPU无事可做时会进入idle进程，cpu_idle是cpuidle进程的主循环，cpuidle_idle_call是入口点。《Linux cpuidle framework(1)_概述和软件架构》对cpuidle基本功能和架构做了介绍，然后《Linux cpuidle framework(2)_cpuidle core》从cpuidle使用者kernel sched角度进行分析，同时介绍了对cpuidle device/driver/governor是如何管理的以及sysfs节点。

cpuidle device是一种虚拟的设备，《Linux cpuidle framework(3)_ARM64 generic CPU idle driver》提供了CPU支持的不同cpuidle状态以及进入状态的驱动。cpuidle支持不同种类的状态，如何根据当前情况进入不同状态呢》《Linux cpuidle framework(4)_menu governor》就是作出这种选的主题。可以说cpuidle governor是决策机构，cpuidle driver是执行机构，cpuidle core提供了触发点以及不同参数配置接口。

那么关于CPUIDLE我们能做什么呢？

重点在于governor和driver，driver提供的状态越多，cpuidle在节省功耗和QoS之间的选择就会越丰富；

governor主要有menu和ladder，顾名思义，menu可以根据需要直接跳转状态，而ladder需要一级一级的爬。

cpuidle提供了进入不同状态的Trace，可以通过分析其timeline，查看进入的状态。

内核节点：

/sys/devices/system/cpu/cpuidle

/sys/kernel/debug/tracing/events/power/cpu_idle

3.6 CPU OPS/HOTPLUG

针对SMP，在cpuidle和cpufreq之间还存在一种低功耗技术cpu的热插拔。在《Linux CPU core的电源管理(1)_概述》中，动态关闭不需要的不需要的CPU核，也可以达到节省功耗的目的。

了解《Linux CPU core的电源管理(2)_cpu topology》才能更有针对性的进行hotplug。

在ARM体检架构下，针对CPU的suspend/idle等操作封装在《Linux CPU core的电源管理(3)_cpu ops》，CUP的状态有online/active/present/possible，每个CPU的online节点是《Linux CPU core的电源管理(5)_cpu control及cpu hotplug》的操作接口。

内核节点：

/sys/devices/system/cpu/online

/sys/devices/system/cpu/offline

/sys/kernel/debug/tracing/events/cpuhp

3.7 CPUFREQ

cpufreq也称作DVFS，《Linux电源管理(15)_PM OPP Interface》定义了不同的Voltage和Frequency的组合。

《linux cpufreq framework(1)_概述》从架构上介绍了cpufreq是如何运作过的，介绍了core/driver/governor的关系，封装了cpufreq_driver、cpufreq_policy和cpufreq_governor。《linux cpufreq framework(3)_cpufreq core》提供了driver/policy/governor三者之间框架，同时通过sysfs向上提供了接口。

《Linux cpufreq framework(2)_cpufreq driver》是调频的执行者，跟具体的架构芯片有关，特别的针对ARM的bL有《linux cpufreq framework(5)_ARM big Little driver》。

《linux cpufreq framework(4)_cpufreq governor》作为调频调压的策略制定者，有很多种(performance/powersave/userspace/ondemand/interactive)，需要根据实际情况选择。

另一系列(DroidPhone)关于cpufreq的文章，

《Linux动态频率调节系统CPUFreq之一：概述》

《Linux动态频率调节系统CPUFreq之二：核心（core）架构与API》

《Linux动态频率调节系统CPUFreq之三：governor》

内核节点：

/sys/devices/system/cpu/cpufreq

/sys/kernel/debug/tracing/events/power/cpu_frequency

3.8 THERMAL

高功耗会带来温度问题，在达到一定温度的时候需要降低功耗。在散热和功耗消耗量之间有一个平衡点，在此功耗量，稳定基本保持稳定，同时不会对设备造成伤害。

《Android/Linux Thermal框架分析及其Governor对比》就是用来处理这类事情的，thermal governor(IPA/stepwise)是决策者，thermal cooling是执行者。

在PC上有风扇，但是在嵌入式设备上只能通过降低功耗(主要是通过DVFS)来达到降低温度的目的。《Android/Linux Thermal Governor之IPA分析与使用》是其中一种governor，它的核心是PID控制器。

内核节点：

/sys/class/thermal

/sys/kernel/debug/tracing/events/thermal

/sys/kernel/debug/tracing/events/thermal_power_allocator

3.9 CLOCK

《Linux common clock framework(1)_概述》是用来管理Clock资源的子系统。对其它dirver提供clocks通用API；从DT中解析出clock tree关系；不同类型的clock器件；clock设置主要内容包括enable/disable clock、设置clock频率、选择clock parent等。

《Linux common clock framework(2)_clock provider》介绍了如何编写clock driver，clock分类有fixed rate clock、gate clock、divider clock、mux clock、fixed factor clock、coposite clock。

《Linux common clock framework(3)_实现逻辑分析》从clock consumer和clock provider两个角度介绍内核是如何管理clock资源的，以及driver是怎么使用clock资源的。

《Common Clock Framework系统结构》总体介绍了common clock framework，从DT中获取clock provider、consumer以及common clock framework相关配置。Clock driver作为provider，其它设备作为consumer，两者通过common clock framework联系在一起。

内核节点：

/sys/kernel/debug/clk

/sys/kernel/debug/tracing/events/clk

/sys/kernel/debug/tracing/events/power/clock_*

3.10 PM QOS

PM的主要功能就是节省功耗，同时会付出一定性能代价。PM QoS的存在就是为了保证采取功耗措施之前，保证性能(延时、吞吐量)。

《Linux PM QoS framework(1)_概述和软件架构》将整个框架分为核心QoS Framework、QoS Requestors(应用、GPU、Flash等驱动需要系统满足一定条件)、QoS Requestee(cpuidle、RPM、PM Domain获取各种限制，确保自身行为满足限制)。

限制constrain分为2类：(1)系统级，包括cpu/dma latency、network latency、network throughput、memory bandwith；(2)设备级，包括从低功耗状态的resume latency、active状态latency和一些QoS flag。

《Linux PM QoS framework(2)_PM QoS class》负责系统级QoS管理。

《Linux PM QoS framework(3)_per-device PM QoS》负责per-device的QoS管理。

内核节点：