隨著技術(shù)的發(fā)展,我們對(duì)CPU的處理能力提出了越來越高的需求,芯片廠家也對(duì)制造工藝不斷地提升?,F(xiàn)在的主流PC處理器的主頻已經(jīng)在3GHz左右,就算是智能手機(jī)的處理器也已經(jīng)可以工作在1.5GHz以上,可是我們并不是時(shí)時(shí)刻刻都需要讓CPU工作在最高的主頻上,尤其是移動(dòng)設(shè)備和筆記本電腦,大部分時(shí)間里,CPU其實(shí)工作在輕負(fù)載狀態(tài)下,我們知道:主頻越高,功耗也越高。為了節(jié)省CPU的功耗和減少發(fā)熱,我們有必要根據(jù)當(dāng)前CPU的負(fù)載狀態(tài),動(dòng)態(tài)地提供剛好足夠的主頻給CPU。在Linux中,內(nèi)核的開發(fā)者定義了一套框架模型來完成這一目的,它就是CPUFreq系統(tǒng)。
1. ?sysfs接口
我們先從CPUFreq提供的sysfs接口入手,直觀地看看它提供了那些功能。以下是我的電腦輸出的結(jié)果:
[plain]?view plain?copy
droidphone@990:~$?cd?/sys/devices/system/cpu??
droidphone@990:/sys/devices/system/cpu$?ls??
cpu0??cpu3??cpu6?????cpuidle?????offline???power????release??
cpu1??cpu4??cpu7?????kernel_max??online????present??uevent??
cpu2??cpu5??cpufreq??modalias????possible??probe??
所有與CPUFreq相關(guān)的sysfs接口都位于:/sys/devices/system/cpu下面,我們可以看到,8個(gè)cpu分別建立了一個(gè)自己的目錄,從cpu0到cpu7,我們?cè)倏纯磑ffline和online以及present的內(nèi)容:
[plain]?view plain?copy
droidphone@990:/sys/devices/system/cpu$?cat?online??
0-7??
droidphone@990:/sys/devices/system/cpu$?cat?offline??
8-15??
droidphone@990:/sys/devices/system/cpu$?cat?present??
0-7??
droidphone@990:/sys/devices/system/cpu$??
online代表目前正在工作的cpu,輸出顯示編號(hào)為0-7這8個(gè)cpu在工作,offline代表目前被關(guān)掉的cpu,present則表示主板上已經(jīng)安裝的cpu,由輸出可以看到,我的主板可以安裝16個(gè)cpu(因?yàn)?a href="http://www.www27dydycom.cn/tags/intel/" target="_blank">intel的超線程技術(shù),其實(shí)物理上只是8個(gè)),第8-15號(hào)cpu處于關(guān)閉狀態(tài)(實(shí)際上不存在,因?yàn)閜resent只有0-7)。
接著往下看:
[plain]?view plain?copy
droidphone@990:/sys/devices/system/cpu/cpu0$?ls??
cache????cpuidle??????microcode??power??????thermal_throttle??uevent??
cpufreq??crash_notes??node0??????subsystem??topology??
droidphone@990:/sys/devices/system/cpu/cpu0$?cd?cpufreq/??
droidphone@990:/sys/devices/system/cpu/cpu0/cpufreq$?ls??
affected_cpus???????????????related_cpus???????????????????scaling_max_freq??
bios_limit??????????????????scaling_available_frequencies??scaling_min_freq??
cpuinfo_cur_freq????????????scaling_available_governors????scaling_setspeed??
cpuinfo_max_freq????????????scaling_cur_freq???????????????stats??
cpuinfo_min_freq????????????scaling_driver??
cpuinfo_transition_latency??scaling_governor??
droidphone@990:/sys/devices/system/cpu/cpu0/cpufreq$???
在我的電腦上,部分的值如下:
cpuinfo_cur_freq: ? 1600000
cpuinfo_max_freq: ?3401000
cpuinfo_min_freq: ? 1600000
scaling_cur_freq: ? ?1600000
scaling_max_freq: ?3401000
scaling_min_freq: ? 1600000
所以,我的cpu0的最低運(yùn)行頻率是1.6GHz,最高是3.4GHz,目前正在運(yùn)行的頻率是1.6GHz,前綴cpuinfo代表的是cpu硬件上支持的頻率,而scaling前綴代表的是可以通過CPUFreq系統(tǒng)用軟件進(jìn)行調(diào)節(jié)時(shí)所支持的頻率。cpuinfo_cur_freq代表通過硬件實(shí)際上讀到的頻率值,而scaling_cur_freq則是軟件當(dāng)前的設(shè)置值,多數(shù)情況下這兩個(gè)值是一致的,但是也有可能因?yàn)橛布脑?,有微小的差異。scaling_available_frequencies會(huì)輸出當(dāng)前軟件支持的頻率值,看看我的cpu支持那些頻率:
[plain]?view plain?copy
droidphone@990:/sys/devices/system/cpu/cpu0/cpufreq$?cat?scaling_available_frequencies???
3401000?3400000?3000000?2800000?2600000?2400000?2200000?2000000?1800000?1600000???
droidphone@990:/sys/devices/system/cpu/cpu0/cpufreq$???
Oh,從1.6GHz到3.4GHz,一共支持10擋的頻率可供選擇。scaling_available_governors則會(huì)輸出當(dāng)前可供選擇的頻率調(diào)節(jié)策略:
[plain]?view plain?copy
conservative?ondemand?userspace?powersave?performance??
一共有5中策略供我們選擇,那么當(dāng)前系統(tǒng)選用那種策略?讓我們看看:
[plain]?view plain?copy
dong@dong-990:/sys/devices/system/cpu/cpu0/cpufreq$?cat?scaling_governor??
ondemand??
OK,我的系統(tǒng)當(dāng)前選擇ondemand這種策略,這種策略的主要思想是:只要cpu的負(fù)載超過某一個(gè)閥值,cpu的頻率會(huì)立刻提升至最高,然后再根據(jù)實(shí)際情況降到合適的水平。詳細(xì)的情況我們留在后面的章節(jié)中討論。scaling_driver則會(huì)輸出當(dāng)前使用哪一個(gè)驅(qū)動(dòng)來設(shè)置cpu的工作頻率。
當(dāng)我們選擇userspace作為我們的調(diào)頻governor時(shí),我們可以通過scaling_setspeed手工設(shè)置需要的頻率。powersave則簡(jiǎn)單地使用最低的工作頻率進(jìn)行運(yùn)行,而performance則一直選擇最高的頻率進(jìn)行運(yùn)行。
2. ?軟件架構(gòu)
通過上一節(jié)的介紹,我們可以大致梳理出CPUFreq系統(tǒng)的構(gòu)成和工作方式。首先,CPU的硬件特性決定了這個(gè)CPU的最高和最低工作頻率,所有的頻率調(diào)整數(shù)值都必須在這個(gè)范圍內(nèi),它們用cpuinfo_xxx_freq來表示。然后,我們可以在這個(gè)范圍內(nèi)再次定義出一個(gè)軟件的調(diào)節(jié)范圍,它們用scaling_xxx_freq來表示,同時(shí),根據(jù)具體的硬件平臺(tái)的不同,我們還需要提供一個(gè)頻率表,這個(gè)頻率表規(guī)定了cpu可以工作的頻率值,當(dāng)然這些頻率值必須要在cpuinfo_xxx_freq的范圍內(nèi)。有了這些頻率信息,CPUFreq系統(tǒng)就可以根據(jù)當(dāng)前cpu的負(fù)載輕重狀況,合理地從頻率表中選擇一個(gè)合適的頻率供cpu使用,已達(dá)到節(jié)能的目的。至于如何選擇頻率表中的頻率,這個(gè)要由不同的governor來實(shí)現(xiàn),目前的內(nèi)核版本提供了5種governor供我們選擇。選擇好適當(dāng)?shù)念l率以后,具體的頻率調(diào)節(jié)工作就交由scaling_driver來完成。CPUFreq系統(tǒng)把一些公共的邏輯和接口代碼抽象出來,這些代碼與平臺(tái)無關(guān),也與具體的調(diào)頻策略無關(guān),內(nèi)核的文檔把它稱為CPUFreq Core(/Documents/cpufreq/core.txt)。另外一部分,與實(shí)際的調(diào)頻策略相關(guān)的部分被稱作cpufreq_policy,cpufreq_policy又是由頻率信息和具體的governor組成,governor才是具體策略的實(shí)現(xiàn)者,當(dāng)然governor需要我們提供必要的頻率信息,governor的實(shí)現(xiàn)最好能做到平臺(tái)無關(guān),與平臺(tái)相關(guān)的代碼用cpufreq_driver表述,它完成實(shí)際的頻率調(diào)節(jié)工作。最后,如果其他內(nèi)核模塊需要在頻率調(diào)節(jié)的過程中得到通知消息,則可以通過cpufreq notifiers來完成。由此,我們可以總結(jié)出CPUFreq系統(tǒng)的軟件結(jié)構(gòu)如下:
3. ?cpufreq_policy
一種調(diào)頻策略的各種限制條件的組合稱之為policy,代碼中用cpufreq_policy這一數(shù)據(jù)結(jié)構(gòu)來表示:
[cpp]?view plain?copy
struct?cpufreq_policy?{??
cpumask_var_t???????????cpus;?????
cpumask_var_t???????????related_cpus;???
unsigned?int????????????shared_type;???
unsigned?int????????????cpu;??????
unsigned?int????????????last_cpu;???
struct?cpufreq_cpuinfo??cpuinfo;??
unsigned?int????????????min;????/*?in?kHz?*/??
unsigned?int????????????max;????/*?in?kHz?*/??
unsigned?int????????????cur;??????
unsigned?int????????????policy;???
struct?cpufreq_governor?*governor;???
void????????????????????*governor_data;??
struct?work_struct??????update;???
struct?cpufreq_real_policy??????user_policy;??
struct?kobject??????????kobj;??
struct?completion???????kobj_unregister;??
};??
其中的各個(gè)字段的解釋如下:
cpus和related_cpus?? ?這兩個(gè)都是cpumask_var_t變量,cpus表示的是這一policy控制之下的所有還出于online狀態(tài)的cpu,而related_cpus則是online和offline兩者的合集。主要是用于多個(gè)cpu使用同一種policy的情況,實(shí)際上,我們平常見到的大多數(shù)系統(tǒng)中都是這種情況:所有的cpu同時(shí)使用同一種policy。我們需要related_cpus變量指出這個(gè)policy所管理的所有cpu編號(hào)。
cpu和last_cpu?? ?雖然一種policy可以同時(shí)用于多個(gè)cpu,但是通常一種policy只會(huì)由其中的一個(gè)cpu進(jìn)行管理,cpu變量用于記錄用于管理該policy的cpu編號(hào),而last_cpu則是上一次管理該policy的cpu編號(hào)(因?yàn)楣芾韕olicy的cpu可能會(huì)被plug out,這時(shí)候就要把管理工作遷移到另一個(gè)cpu上)。
cpuinfo?? ?保存cpu硬件所能支持的最大和最小的頻率以及切換延遲信息。
min/max/cur??該policy下的可使用的最小頻率,最大頻率和當(dāng)前頻率。
policy ? ?該變量可以取以下兩個(gè)值:CPUFREQ_POLICY_POWERSAVE和CPUFREQ_POLICY_PERFORMANCE,該變量只有當(dāng)調(diào)頻驅(qū)動(dòng)支持setpolicy回調(diào)函數(shù)的時(shí)候有效,這時(shí)候由驅(qū)動(dòng)根據(jù)policy變量的值來決定系統(tǒng)的工作頻率或狀態(tài)。如果調(diào)頻驅(qū)動(dòng)(cpufreq_driver)支持target回調(diào),則頻率由相應(yīng)的governor來決定。
governor和governor_data?? ?指向該policy當(dāng)前使用的cpufreq_governor結(jié)構(gòu)和它的上下文數(shù)據(jù)。governor是實(shí)現(xiàn)該policy的關(guān)鍵所在,調(diào)頻策略的邏輯由governor實(shí)現(xiàn)。
update?? ?有時(shí)在中斷上下文中需要更新policy,需要利用該工作隊(duì)列把實(shí)際的工作移到稍后的進(jìn)程上下文中執(zhí)行。
user_policy?? ?有時(shí)候因?yàn)樘厥獾脑蛐枰薷膒olicy的參數(shù),比如溫度過高時(shí),最大可允許的運(yùn)行頻率可能會(huì)被降低,為了在適當(dāng)?shù)臅r(shí)候恢復(fù)原有的運(yùn)行參數(shù),需要使用user_policy保存原始的參數(shù)(min,max,policy,governor)。
kobj?? ?該policy在sysfs中對(duì)應(yīng)的kobj的對(duì)象。
4. ?cpufreq_governor
所謂的governor,我把它翻譯成:調(diào)節(jié)器。governor負(fù)責(zé)檢測(cè)cpu的使用狀況,從而在可用的范圍中選擇一個(gè)合適的頻率,代碼中它用cpufreq_governor結(jié)構(gòu)來表示:
[cpp]?view plain?copy
struct?cpufreq_governor?{??
char????name[CPUFREQ_NAME_LEN];??
int?????initialized;??
int?????(*governor)?????(struct?cpufreq_policy?*policy,??
unsigned?int?event);??
ssize_t?(*show_setspeed)????????(struct?cpufreq_policy?*policy,??
char?*buf);??
int?????(*store_setspeed)???????(struct?cpufreq_policy?*policy,??
unsigned?int?freq);??
unsigned?int?max_transition_latency;?/*?HW?must?be?able?to?switch?to?
next?freq?faster?than?this?value?in?nano?secs?or?we?
will?fallback?to?performance?governor?*/??
struct?list_head????????governor_list;??
struct?module???????????*owner;??
};??
其中的各個(gè)字段的解釋如下:
name ? ?該governor的名字。
initialized ? ?初始化標(biāo)志。
governor ? ?指向一個(gè)回調(diào)函數(shù),CPUFreq Core會(huì)在不同的階段調(diào)用該回調(diào)函數(shù),用于該governor的啟動(dòng)、停止、初始化、退出動(dòng)作。
list_head ? ?所有注冊(cè)的governor都會(huì)利用該字段鏈接在一個(gè)全局鏈表中,以供系統(tǒng)查詢和使用。
5. ?cpufreq_driver
上一節(jié)提到的gonvernor只是負(fù)責(zé)計(jì)算并提出合適的頻率,但是頻率的設(shè)定工作是平臺(tái)相關(guān)的,這需要cpufreq_driver驅(qū)動(dòng)來完成,cpufreq_driver的結(jié)構(gòu)如下:
[cpp]?view plain?copy
struct?cpufreq_driver?{??
struct?module???????????*owner;??
char????????????????????name[CPUFREQ_NAME_LEN];??
u8??????????????????????flags;??
bool????????????????????have_governor_per_policy;??
/*?needed?by?all?drivers?*/??
int?????(*init)?????????(struct?cpufreq_policy?*policy);??
int?????(*verify)???????(struct?cpufreq_policy?*policy);??
/*?define?one?out?of?two?*/??
int?????(*setpolicy)????(struct?cpufreq_policy?*policy);??
int?????(*target)???????(struct?cpufreq_policy?*policy,??
unsigned?int?target_freq,??
unsigned?int?relation);??
/*?should?be?defined,?if?possible?*/??
unsigned?int????(*get)??(unsigned?int?cpu);??
/*?optional?*/??
unsigned?int?(*getavg)??(struct?cpufreq_policy?*policy,??
unsigned?int?cpu);??
int?????(*bios_limit)???(int?cpu,?unsigned?int?*limit);??
int?????(*exit)?????????(struct?cpufreq_policy?*policy);??
int?????(*suspend)??????(struct?cpufreq_policy?*policy);??
int?????(*resume)???????(struct?cpufreq_policy?*policy);??
struct?freq_attr????????**attr;??
};??
相關(guān)的字段的意義解釋如下:
name?? ?該頻率驅(qū)動(dòng)的名字。
init?? ?回調(diào)函數(shù),該回調(diào)函數(shù)必須實(shí)現(xiàn),CPUFreq Core會(huì)通過該回調(diào)函數(shù)對(duì)該驅(qū)動(dòng)進(jìn)行必要的初始化工作。
verify?? ?回調(diào)函數(shù),該回調(diào)函數(shù)必須實(shí)現(xiàn),CPUFreq Core會(huì)通過該回調(diào)函數(shù)檢查policy的參數(shù)是否被驅(qū)動(dòng)支持。
setpolicy/target?? ?回調(diào)函數(shù),驅(qū)動(dòng)必須實(shí)現(xiàn)這兩個(gè)函數(shù)中的其中一個(gè),如果不支持通過governor選擇合適的運(yùn)行頻率,則實(shí)現(xiàn)setpolicy回調(diào)函數(shù),這樣系統(tǒng)只能支持CPUFREQ_POLICY_POWERSAVE和CPUFREQ_POLICY_PERFORMANCE這兩種工作策略。反之,實(shí)現(xiàn)target回調(diào)函數(shù),通過target回調(diào)設(shè)定governor所需要的頻率。
get?? ?回調(diào)函數(shù),用于獲取cpu當(dāng)前的工作頻率。
getavg?? ?回調(diào)函數(shù),用于獲取cpu當(dāng)前的平均工作頻率。
6. ?cpufreq notifiers
CPUFreq的通知系統(tǒng)使用了內(nèi)核的標(biāo)準(zhǔn)通知接口。它對(duì)外提供了兩個(gè)通知事件:policy通知和transition通知。
policy通知用于通知其它模塊cpu的policy需要改變,每次policy改變時(shí),該通知鏈上的回調(diào)將會(huì)用不同的事件參數(shù)被調(diào)用3次,分別是:
CPUFREQ_ADJUST ? ?只要有需要,所有的被通知者可以在此時(shí)修改policy的限制信息,比如溫控系統(tǒng)可能會(huì)修改在大允許運(yùn)行的頻率。
CPUFREQ_INCOMPATIBLE ? ?只是為了避免硬件錯(cuò)誤的情況下,可以在該通知中修改policy的限制信息。
CPUFREQ_NOTIFY ? ?真正切換policy前,該通知會(huì)發(fā)往所有的被通知者。
transition通知鏈用于在驅(qū)動(dòng)實(shí)施調(diào)整cpu的頻率時(shí),用于通知相關(guān)的注冊(cè)者。每次調(diào)整頻率時(shí),該通知會(huì)發(fā)出兩次通知事件:
CPUFREQ_PRECHANGE ? ?調(diào)整前的通知。
CPUFREQ_POSTCHANGE ? ?完成調(diào)整后的通知。
當(dāng)檢測(cè)到因系統(tǒng)進(jìn)入suspend而造成頻率被改變時(shí),以下通知消息會(huì)被發(fā)出:
CPUFREQ_RESUMECHANGE
?
評(píng)論