白皮書
摘要
數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房的功率要求隨計(jì)算負(fù)載的變化而瞬息萬變。這種變化的幅度已經(jīng)在增長,并且隨著電源管理技術(shù)在服務(wù)器和通信設(shè)備中的部署會繼續(xù)急劇增長。這種變化帶來了可用性和管理方面的新問題。
數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房消耗的總電源功率是已安裝的 IT 設(shè)備所消耗功率的總和。在以前,這類設(shè)備的功耗隨計(jì)算負(fù)載或工作模式的不同,只會發(fā)生極小的變化.為延長筆記本電腦的電池供電時(shí)間,需要對處理器的電源消耗進(jìn)行管理。電源管理技術(shù)的應(yīng)用使筆記本電腦處理器在負(fù)載較小的情況下可節(jié)電高達(dá) 90%。隨著此項(xiàng)技術(shù)的逐漸成熟,人們已開始將其移植到服務(wù)器的設(shè)計(jì)中。其結(jié)果是當(dāng)新開發(fā)的服務(wù)器的工作負(fù)載隨時(shí)間發(fā)生變化時(shí),其功耗可能會隨之發(fā)生顯著變化。
當(dāng)功率隨時(shí)間發(fā)生變化時(shí),隨之而來的是數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房設(shè)計(jì)和管理方面的各種新問題。在幾年以前,這種問題是可以忽略的?,F(xiàn)在,問題已到達(dá)不容忽略的程度,并且問題的嚴(yán)重性還在不斷加劇。這種功耗波動會導(dǎo)致在數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房環(huán)境中發(fā)生意外的不良后果,包括斷路器跳閘、過熱和冗余電源系統(tǒng)中的冗余功能喪失。這種情況給數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房的設(shè)計(jì)和操作人員帶來了新的挑戰(zhàn)。
動態(tài)功率變化的幅度
在整個(gè) 20 世紀(jì) 90 年代,幾乎所有服務(wù)器所消耗的功率都接近于恒定。造成服務(wù)器功率變化的主要因素是磁盤驅(qū)動器的旋轉(zhuǎn)以及溫控風(fēng)扇的速度變化。處理器和內(nèi)存子系統(tǒng)上的計(jì)算負(fù)載所導(dǎo)致的功率變化很小,在總功耗中可以忽略不計(jì)。在典型的小型公司或企業(yè)服務(wù)器中,總功率變化一般在 5% 左右,并且這種變化幾乎與計(jì)算運(yùn)行狀態(tài)無關(guān)。
要大幅度降低功耗,需要 BIOS、芯片組、處理器和操作系統(tǒng)之間協(xié)調(diào)配合。在這樣一個(gè)電源受到管理的系統(tǒng)中,每當(dāng)處理器的使用率低于百分百時(shí),操作系統(tǒng)就會執(zhí)行空閑線程,使處理器進(jìn)入低功率狀態(tài)。處于低功率狀態(tài)的時(shí)間量與系統(tǒng)上的計(jì)算負(fù)載成反比(例如,當(dāng) CPU 的使用率為 20% 時(shí),處理器將有 80% 的時(shí)間處于低功率狀態(tài))。
不同的供應(yīng)商和不同種類的處理器采用不同的方法來實(shí)現(xiàn)低功率狀態(tài)。但是,常見的方法包括減少或停止時(shí)鐘和減少或停止對處理器、芯片組和內(nèi)存的各個(gè)部件供電。
處理器供應(yīng)商開始引入可在 CPU 執(zhí)行任務(wù)時(shí)節(jié)省電力的方法。這些方法包括改變處理器的時(shí)鐘頻率和電壓大小,以便更好地匹配處理器在非空閑狀態(tài)下的工作負(fù)載。
需要注意的是,任何在一定條件下減小處理器功耗的方法,所減小的都是系統(tǒng)平均功耗。大功耗不會改變,并且每一代新 CPU都有功耗升高的趨勢。另外,您還必須認(rèn)識到,當(dāng)處理器功耗在服務(wù)器總功耗中所占比例較大時(shí),由計(jì)算負(fù)載造成的服務(wù)器總功耗的變化也會相應(yīng)變大(按百分比計(jì))。因此,具有多處理器的服務(wù)器和磁盤驅(qū)動器很少的服務(wù)器(如,刀片服務(wù)器),其動態(tài)功率變化百分比高
與動態(tài)功率變化相關(guān)的問題
動態(tài)功率變化導(dǎo)致以下新問題的產(chǎn)生:
分支電路過載
在多數(shù)時(shí)間下,大部分服務(wù)器都在小計(jì)算負(fù)載下運(yùn)行。對于具有電源管理功能的服務(wù)器而言,這意味著服務(wù)器將消耗少于潛在功耗的功率。但是,大多數(shù)數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房的安裝或維護(hù)人員并沒有意識到其通常觀察到的服務(wù)器功耗可能遠(yuǎn)小于高計(jì)算負(fù)載下的潛在功耗。這種情況可能會導(dǎo)致數(shù)據(jù)中心或網(wǎng)絡(luò)機(jī)房的操作人員或IT 工作人員無意地將過多的服務(wù)器連接到分支電路中。
當(dāng)分支電路中服務(wù)器的大功耗總和超過分支電路的額定值時(shí),就有可能發(fā)生過載。在這種情況下,這些服務(wù)器將會正常運(yùn)行,直到條件發(fā)生變化,即足夠多的服務(wù)器同時(shí)在大負(fù)載下運(yùn)行。導(dǎo)致此類過載的計(jì)算條件很少發(fā)生,因此系統(tǒng)可能會連續(xù)數(shù)周甚至數(shù)月無故障地正常運(yùn)轉(zhuǎn)。
在由于上述情況而導(dǎo)致的過載條件發(fā)生期間,分支電路將在高于電路額定值的電流下工作。在數(shù)據(jù)中心或網(wǎng)絡(luò)機(jī)房環(huán)境中,此情況造成的極嚴(yán)重后果是分支電路斷路器可能跳閘并中斷對計(jì)算設(shè)備的供電。毫無疑問,這是我們不希望發(fā)生的情況。此外,由于這種供電中斷是發(fā)生在計(jì)算負(fù)載很高的時(shí)間段,因此計(jì)算設(shè)備有可能正在處理大量事務(wù),這意味著故障很有可能發(fā)生在不希望發(fā)生的時(shí)間點(diǎn)上。
過熱
在數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房中,計(jì)算設(shè)備所消耗的所有電能都會變成熱量散發(fā)出來(PoE 交換機(jī)是個(gè)例外,它將大部分功率通過以太網(wǎng)電纜傳輸?shù)?VOIP 電話、Wi-Fi 接入點(diǎn)和其他受電設(shè)備)。當(dāng)計(jì)算設(shè)備的功耗因計(jì)算負(fù)載而變化時(shí),其熱量輸出也會變化。如果數(shù)據(jù)中心某一處設(shè)備的功耗突然增加,就會在數(shù)據(jù)中心出現(xiàn)局部熱點(diǎn)。數(shù)據(jù)中心制冷系統(tǒng)的制冷能力可能已根據(jù)典型功率耗散情況進(jìn)行了分配,因此局部區(qū)域的功率翻倍可能導(dǎo)致不期望的溫度上升,而這種溫度上升在設(shè)計(jì)制冷系統(tǒng)時(shí)并未考慮。這可能導(dǎo)致設(shè)備在過熱時(shí)關(guān)機(jī),工作異常或者使設(shè)備的保修失效。
冗余喪失
很多服務(wù)器都具有雙冗余電源輸入,而具有高可用性的數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房正是利用這一特性為服務(wù)器提供雙路供電。當(dāng)其中一條供電線路上的任何一點(diǎn)徹底無法供電時(shí),這些系統(tǒng)仍然可獲得電能并繼續(xù)運(yùn)行。在正常運(yùn)行條件下,計(jì)算機(jī)設(shè)計(jì)為讓兩條供電線路平均分擔(dān)負(fù)載。當(dāng)其中一條供電線路發(fā)生故障時(shí),服務(wù)器的全部負(fù)載就會轉(zhuǎn)移到剩下的另一條供電線路上。這會導(dǎo)致供電線路上的負(fù)載翻倍。因此,對于為雙路供電系統(tǒng)中的設(shè)備供電的 AC 電源分支電路而言,其負(fù)載必須小于額定載流容量的 50%。這樣,它才有足夠的剩余能力在必要時(shí)承擔(dān)全部負(fù)載。
當(dāng)負(fù)載呈現(xiàn)出動態(tài)變化的功耗時(shí),確保分支電路的負(fù)載小于其額定值的 50% 變得更加困難。系統(tǒng)在安裝時(shí)已經(jīng)過測試并且分支電路確實(shí)是在其額定值的 50% 之下運(yùn)行。但是,當(dāng)未來某個(gè)時(shí)刻出現(xiàn)高計(jì)算負(fù)載時(shí),系統(tǒng)就有可能開始在大于額定值的 50% 的條件下運(yùn)行。
如果雙路供電系統(tǒng)的分支電路出現(xiàn)負(fù)載超過自身能力的 50% 的情況,那么系統(tǒng)就喪失了冗余功能。如果一條供電線路發(fā)生故障,第二條供電線路會立即過載并可能發(fā)生上一節(jié)所述的斷路器跳閘情況。同樣,由于這種供電中斷是發(fā)生在計(jì)算負(fù)載很高的時(shí)間段,因此計(jì)算設(shè)備有可能正在處理大量事務(wù),這意味著冗余功能喪失很有可能發(fā)生在不希望發(fā)生的時(shí)間點(diǎn)上。
掩蓋問題
具有動態(tài)功耗的設(shè)備可能只占數(shù)據(jù)中心或網(wǎng)絡(luò)機(jī)房總功耗的很小部分。如果數(shù)據(jù)中心的 5% 設(shè)備具有 2 比 1的動態(tài)功率變化,其他設(shè)備消耗恒定的功率,那么在主供電線路或配電單元處測量到的數(shù)據(jù)中心總功率只會變化 2.5%。這種測量結(jié)果會誤導(dǎo)操作人員,使其確信不會有重大的動態(tài)功率變化問題發(fā)生。實(shí)際上,發(fā)生斷路器跳閘、過熱或冗余功能喪失的風(fēng)險(xiǎn)是非常大的。因此,很有可能問題已存在但經(jīng)驗(yàn)豐富的操作人員并未察覺。
管理動態(tài)功率變化
為減少上節(jié)所述問題的發(fā)生,數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房的設(shè)計(jì)、管理人員必須針對動態(tài)功耗這一新情況采取必要的應(yīng)對措施。解決這一問題的方法有很多,下面評述了其中的幾種:
為每臺服務(wù)器提供專用分支電路
如果每臺服務(wù)器都有獨(dú)立的分支電路,分支電路過載就不會發(fā)生。這是因?yàn)樵O(shè)計(jì)方案假定每一臺服務(wù)器都通過專用分支電路供電運(yùn)行。此方法解決了分支電路過載問題和冗余功能喪失問題。雖然它沒有解決過熱問題,但該問題通常不是大的風(fēng)險(xiǎn)所在。但是,對于部署了小型服務(wù)器(如 1U 或 2U 服務(wù)器)的工作環(huán)境,由于每個(gè)機(jī)架所需分支電路的數(shù)量極其巨大,因此這是一個(gè)非常復(fù)雜而昂貴的解決方案。在極端的情況下,裝滿了雙線 1U 服務(wù)器的機(jī)架可能需要 84 個(gè)分支電路,這意味著需要兩個(gè)大型電路斷路器配線板。當(dāng)使用較大型的服務(wù)器或刀片服務(wù)器時(shí),此解決方案更加實(shí)用。
建立極壞情況下的安全容限標(biāo)準(zhǔn)并在安裝時(shí)測量兼容性
多數(shù)數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房操作人員都有負(fù)載容限標(biāo)準(zhǔn),通常以占全部負(fù)載分支電路額定值的百分?jǐn)?shù)表示。所選擇的典型值一般在分支電路額定值的 60% 到 80% 之間,75% 被認(rèn)為是兼顧電源容量、成本和可用性的理想折衷值。要確認(rèn)與標(biāo)準(zhǔn)的兼容性,應(yīng)對實(shí)際分支電路進(jìn)行測量并確保其符合標(biāo)準(zhǔn)。注意,當(dāng)系統(tǒng)具有動態(tài)變化的功耗時(shí),由于在測量時(shí)很難知道計(jì)算負(fù)載的情況,使用此方法會面臨嚴(yán)峻的問題。方法是在測量時(shí)將大計(jì)算負(fù)載加在有保護(hù)的設(shè)備上,以確保在壞的情況下也能符合標(biāo)準(zhǔn)。
建立壞情況下的安全容限標(biāo)準(zhǔn)并計(jì)算兼容性
在另一種情況中,保留一份連接到每個(gè)分支電路的設(shè)備的詳細(xì)清單,以及公布的或測量出的設(shè)備大負(fù)載數(shù)據(jù),然后將負(fù)載相加以確保特定分支電路沒有過載。各設(shè)備的大負(fù)載信息可從其設(shè)備制造商處獲得(通常會將負(fù)載夸大),或從 UPS 選擇器應(yīng)用程序獲得。這類應(yīng)用程序可在 www.apcc.com 網(wǎng)站上找到。保留詳細(xì)的分支電路清單是大型高可用性數(shù)據(jù)中心的工作慣例。但是,這需要操作員能做到時(shí)刻準(zhǔn)確掌握每個(gè)分支電路中所插入的設(shè)備。對于大多數(shù)網(wǎng)絡(luò)機(jī)房和較小的數(shù)據(jù)中心,由于對用戶沒有足夠的控制,因此不能確保用戶不會移動設(shè)備、交換設(shè)備的位置,或?qū)⒃O(shè)備插入其他的插座中。因此,對于很多安裝場所,此方法是不切實(shí)際的??梢詫⑦@些容限值進(jìn)一步降低以便為動態(tài)功率的增加做好準(zhǔn)備。例如,安全容限規(guī)格可以定為當(dāng)設(shè)備在空閑狀態(tài)下運(yùn)行時(shí),測量到的分支電路負(fù)載不能超過分支電路額定值的 35%
建立壞情況下的安全容限標(biāo)準(zhǔn)并實(shí)時(shí)監(jiān)控兼容情況
在此情況中,建立安全容限并通過自動監(jiān)控系統(tǒng)對所有分支電路進(jìn)行實(shí)時(shí)連續(xù)監(jiān)控。當(dāng)分支電路負(fù)載開始進(jìn)入安全容限區(qū)域時(shí),發(fā)出警告。例如,如果使用 60% 的分支電路負(fù)載標(biāo)準(zhǔn),則當(dāng)負(fù)載超過 60% 時(shí)就會發(fā)出警告。所建立的安全容限應(yīng)該確保操作人員能夠提前獲得有關(guān)問題區(qū)域的警告,并且在電流過載情況發(fā)生前有足夠的時(shí)間來采取糾正措施。此方法可與前面所述的其他方法配合使用。它的大優(yōu)點(diǎn)在于其適用于用戶可能在數(shù)據(jù)中心管理員不知情的情況下安裝、移動設(shè)備或?qū)⒃O(shè)備插入其他插座的情況。這種情況在網(wǎng)絡(luò)機(jī)房、配置室和中等安全的數(shù)據(jù)中心時(shí)有發(fā)生。此方法還可對即將發(fā)生的冗余功能喪失發(fā)出警告。它是數(shù)據(jù)中心管理員管理多變環(huán)境中的動態(tài)功率變化的有力工具。
結(jié)論
隨著時(shí)間的推移,功耗隨負(fù)載變化而顯著變化的 IT 負(fù)載在網(wǎng)絡(luò)機(jī)房或數(shù)據(jù)中心所占的百分比正在不斷增加。這種情況給數(shù)據(jù)中心基礎(chǔ)設(shè)施操作人員帶了許多不曾預(yù)料到的問題。因此,需要對以前用于減小過載風(fēng)險(xiǎn)的措施加以改進(jìn)以便適應(yīng)新的情況。對于要在其中安裝大量服務(wù)器的新設(shè)施和現(xiàn)有設(shè)施而言,正確的規(guī)劃和監(jiān)控分支電路功率是確保其可用性的關(guān)鍵所在。