本發(fā)明涉及服務(wù)器及服務(wù)器監(jiān)控。
背景技術(shù):
在服務(wù)器設(shè)計(jì)中,需要采用帶外的管理系統(tǒng)對(duì)服務(wù)器的功耗、電壓、風(fēng)扇、開(kāi)關(guān)機(jī)狀態(tài)等各個(gè)指標(biāo)進(jìn)行監(jiān)控。管理系統(tǒng)采用專用的管理控制器,一般根據(jù)功能將管理控制器分為兩種:bmc(baseboardmanagementcontroller,基板管理控制器),對(duì)服務(wù)器主板進(jìn)行監(jiān)控;smc(systemmanagementcontroller,系統(tǒng)管理控制器),對(duì)服務(wù)器整個(gè)系統(tǒng)進(jìn)行監(jiān)控。一般情況下,為了保證服務(wù)器的可靠性,smc采用冗余設(shè)計(jì),即配置兩個(gè)smc,任何一個(gè)smc出故障時(shí),另一個(gè)smc可以保證管理系統(tǒng)的正常工作。
但是bmc一般不采用冗余設(shè)計(jì)。如圖1為現(xiàn)有設(shè)計(jì)中的常見(jiàn)連接,即每個(gè)主板或節(jié)點(diǎn)上只集成一個(gè)bmc,用于對(duì)主板或節(jié)點(diǎn)的監(jiān)控。被監(jiān)控單元將監(jiān)控的信號(hào)直接發(fā)給bmc。被監(jiān)控單元一般是電源模塊、cpu、pch等設(shè)備。監(jiān)控信號(hào)可以是指示電源狀態(tài)的信號(hào)、cpu過(guò)熱信號(hào)等。這樣,當(dāng)系統(tǒng)電源狀態(tài)、溫度等超標(biāo)時(shí),bmc能夠成功檢測(cè)并記錄該現(xiàn)象,并進(jìn)行下一步操作。
這就帶來(lái)了服務(wù)器可靠性的問(wèn)題。即,當(dāng)bmc發(fā)生故障復(fù)位期間,無(wú)法對(duì)主板或節(jié)點(diǎn)的工作健康狀態(tài)(功耗、電壓、是否有錯(cuò)誤信息等)進(jìn)行監(jiān)控。
cpld(complexprogrammablelogicdevice,復(fù)雜可編程邏輯器件)。
fpga(field-programmablegatearray,即現(xiàn)場(chǎng)可編程門陣列)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為解決當(dāng)bmc發(fā)生故障時(shí),無(wú)法對(duì)主板或節(jié)點(diǎn)的工作健康狀態(tài)(功耗、電壓、是否有錯(cuò)誤信息等)進(jìn)行監(jiān)控的技術(shù)問(wèn)題。為此,本發(fā)明提供一種服務(wù)器及服務(wù)器監(jiān)控方法,它具有在bmc發(fā)生故障或復(fù)位時(shí),仍然能夠讀取到故障或復(fù)位器件的監(jiān)控信號(hào)變化,提高了服務(wù)器的穩(wěn)定性和可靠性的優(yōu)點(diǎn)。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案。
一種服務(wù)器,包含:
bmc,與邏輯控制單元連接,向邏輯控制單元發(fā)送心跳信號(hào),并接收邏輯控制單元發(fā)送的監(jiān)控信號(hào)及事件記錄信號(hào);
邏輯控制單元,與被監(jiān)控單元連接,接收被監(jiān)控單元發(fā)送的監(jiān)控信號(hào);
被監(jiān)控單元,用于向邏輯控制單元發(fā)送監(jiān)控信號(hào)。
優(yōu)選的,邏輯控制單元為cpld或fpga的一種。
優(yōu)選的,被監(jiān)控單元是電源模塊、cpu、pch、網(wǎng)絡(luò)芯片、系統(tǒng)電源的一種或多種。
電源模塊,監(jiān)控電壓是否有輸出,幅值是否正常;cpu,監(jiān)控是否有報(bào)錯(cuò);pch,監(jiān)控是否有報(bào)錯(cuò);網(wǎng)絡(luò)芯片,監(jiān)控網(wǎng)絡(luò)信號(hào)是否聯(lián)通;系統(tǒng)電源,檢測(cè)是否有錯(cuò)誤,輸出是否正常(系統(tǒng)電源是將220v電源轉(zhuǎn)換成直流電源的模塊,電源模塊指將系統(tǒng)電源轉(zhuǎn)出的直流電源轉(zhuǎn)化成板卡需要的各種電源)。
服務(wù)器監(jiān)控方法,包含以下步驟:
當(dāng)bmc正常工作時(shí),bmc向邏輯控制單元發(fā)送心跳信號(hào)。當(dāng)邏輯控制單元檢測(cè)到心跳信號(hào)時(shí),將被監(jiān)控單元發(fā)來(lái)的監(jiān)控信號(hào)直接發(fā)給bmc。
當(dāng)bmc不正常工作時(shí),即當(dāng)邏輯控制單元檢測(cè)不到心跳信號(hào)時(shí),邏輯控制單元檢測(cè)被監(jiān)控單元的狀態(tài)。當(dāng)其監(jiān)控信號(hào)的電平和正常電平不一致時(shí),邏輯控制單元將該監(jiān)控信號(hào)的編號(hào)記錄到ram中,待檢測(cè)到bmc的心跳信號(hào)后,再講監(jiān)控信號(hào)的編號(hào)通過(guò)事件記錄信號(hào)發(fā)給bmc。
本發(fā)明的有益效果:本發(fā)明針對(duì)現(xiàn)有設(shè)計(jì)中bmc發(fā)生故障或復(fù)位時(shí),無(wú)法對(duì)主板或節(jié)點(diǎn)的工作健康狀態(tài)(功耗、電壓、是否有錯(cuò)誤信息等)進(jìn)行監(jiān)控的問(wèn)題進(jìn)行改進(jìn)。通過(guò)cpld判斷bmc的工作狀態(tài),決定是否接管對(duì)監(jiān)控信息的記錄工作。應(yīng)用本技術(shù),可以實(shí)現(xiàn)在bmc發(fā)生故障或復(fù)位時(shí),仍然能夠讀取到故障或復(fù)位器件的監(jiān)控信號(hào)變化。提高了服務(wù)器的穩(wěn)定性和可靠性。
附圖說(shuō)明
圖1是現(xiàn)有技術(shù)服務(wù)器電路連接示意圖。
圖2是本實(shí)施例服務(wù)器電路連接示意圖。
具體實(shí)施方式
下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
如圖2所示,一種服務(wù)器,包含bmc,與cpld連接,向cpld發(fā)送心跳信號(hào),并接收cpld發(fā)送的監(jiān)控信號(hào)及事件記錄信號(hào);cpld,與被監(jiān)控單元連接,接收被監(jiān)控單元發(fā)送的監(jiān)控信號(hào);被監(jiān)控單元,用于向cpld發(fā)送監(jiān)控信號(hào)。被監(jiān)控單元包含電源模塊、cpu、pch。
服務(wù)器監(jiān)控方法,包含以下步驟:
當(dāng)bmc正常工作時(shí),bmc向cpld發(fā)送心跳信號(hào)。當(dāng)cpld檢測(cè)到心跳信號(hào)時(shí),將被監(jiān)控單元發(fā)來(lái)的監(jiān)控信號(hào)直接發(fā)給bmc。
當(dāng)bmc不正常工作時(shí),即當(dāng)cpld檢測(cè)不到心跳信號(hào)時(shí),cpld檢測(cè)被監(jiān)控單元的狀態(tài)。當(dāng)其監(jiān)控信號(hào)的電平和正常電平不一致時(shí),cpld將該監(jiān)控信號(hào)的編號(hào)記錄到ram中,待檢測(cè)到bmc的心跳信號(hào)后,再講監(jiān)控信號(hào)的編號(hào)通過(guò)事件記錄信號(hào)發(fā)給bmc。
上述雖然結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對(duì)本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動(dòng)即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。