UNIX平臺(tái)廉價(jià)雙機(jī)容錯(cuò)方案
由于有多種方式來提高系統(tǒng)的可用性,但每種方式又各有利弊,因此設(shè)計(jì)者往往需根據(jù)用戶的實(shí)際可靠性與可用性的要求選擇不同的解決方案。這也取決于系統(tǒng)的需求:硬件的容錯(cuò)方案往往運(yùn)行速度較快但投資規(guī)模也大,軟件容錯(cuò)方案可能占用系統(tǒng)開銷,但比硬件方案更靈活,尤其是在系統(tǒng)已經(jīng)建立起來之后,并且投資小。本文所介紹的容錯(cuò)系統(tǒng)就是利用浪潮英信服務(wù)器可靠性平臺(tái)和Western Micro的專用技術(shù),通過軟件方式,而不借助陣列柜或其它專用硬件來實(shí)現(xiàn)系統(tǒng)容錯(cuò),達(dá)到提高系統(tǒng)可用性的目的。
設(shè)備選型
在本方案中,我們使用浪潮英信服務(wù)器——網(wǎng)通NL300,這是因?yàn)樵摽罘?wù)器具有如下鮮明的特點(diǎn),特別是在可靠性、性能、擴(kuò)展性方面都有出色的表現(xiàn):
采用最新的Intel Pentium Ⅲ Xeon處理器,性能出色,可靠性高,可擴(kuò)展性強(qiáng)。同時(shí)采用業(yè)界先進(jìn)的系統(tǒng)體系結(jié)構(gòu),包括133MHz SDRAM、64-bit/66MHz PCI、和最新的FSB為133MHz的Intel Pentium Ⅲ Xeon處理器,提供了兩路服務(wù)器所能提供的超強(qiáng)性能。
除了超強(qiáng)的性能以外,為了保護(hù)用戶的投資,使得服務(wù)器能夠隨著用戶業(yè)務(wù)的增長而不斷的提升性能,網(wǎng)通NL300預(yù)留了充足的內(nèi)部擴(kuò)展能力:系統(tǒng)一共以提供16個(gè)存儲(chǔ)槽位,其中包括9個(gè)熱插拔硬盤槽位,滿足用戶不斷增長的存儲(chǔ)要求;系統(tǒng)提供了6個(gè)PCI插槽和一個(gè)ISA插槽,并且支持最新的64位PCI技術(shù),可以安裝高性能的擴(kuò)展卡,滿足您不斷提升的性能要求;另外,內(nèi)存可以擴(kuò)展到4GB,并支持兩路處理器。最大限度的保護(hù)投資。
此外,為了保證用戶關(guān)鍵業(yè)務(wù)的穩(wěn)定運(yùn)行,網(wǎng)通NL300提供了極高的可用性,包括ECC內(nèi)存、熱插拔硬盤、熱插拔電源和故障預(yù)測技術(shù)。擁有了以前高端計(jì)算機(jī)才擁有的特性。
系統(tǒng)平臺(tái)
浪潮網(wǎng)通NL300服務(wù)器兩臺(tái)(可以是不同配置,配置雙網(wǎng)卡);
SCO Unix操作系統(tǒng)兩套;
數(shù)據(jù)庫系統(tǒng)一套;
SavWareHA軟件一套;
RS232串口線、CAT5類直連(NO HUB)網(wǎng)線各一根。
通過上圖我們可清楚地看到兩臺(tái)服務(wù)器各自配備雙網(wǎng)卡,它們各自通過其中一塊網(wǎng)卡接入公共網(wǎng)絡(luò),通過這個(gè)連接向網(wǎng)絡(luò)中的其他客戶提供服務(wù)。而另一對網(wǎng)卡用于它們之間的互連,這條通道就是在兩臺(tái)服務(wù)器之間進(jìn)行大量數(shù)據(jù)傳送的專用通道,它負(fù)責(zé)兩臺(tái)主機(jī)之間同步數(shù)據(jù)的傳送工作;而串口線在兩臺(tái)機(jī)器之間傳遞心跳信號,用于檢測服務(wù)器的狀態(tài),以判斷是否進(jìn)行業(yè)務(wù)以及主機(jī)地址的接管。
系統(tǒng)工作過程
1) 自動(dòng)偵測(Auto-Detect)階段:
由服務(wù)器上的軟件通過偵測線,經(jīng)由復(fù)雜的監(jiān)聽程序。邏輯判斷,來相互偵測對方運(yùn)行的情況,所檢查的項(xiàng)目有:
服務(wù)器硬件(CPU和周邊);
服務(wù)器網(wǎng)絡(luò);
服務(wù)器操作系統(tǒng);
數(shù)據(jù)庫引擎及其它應(yīng)用程序;
為確保偵測的正確性,而防止錯(cuò)誤的判斷,可設(shè)定安全偵測時(shí)間,包括偵測時(shí)間間隔,偵測次數(shù)以調(diào)整安全系數(shù),并且由服務(wù)器之間的專用通信連線,將所匯集的訊息記錄下來,以供維護(hù)參考。
2) 自動(dòng)切換(Auto-Switch)階段:
如果備機(jī)確認(rèn)對方故障,則它除繼續(xù)進(jìn)行原來的任務(wù),還將依據(jù)各種容錯(cuò)備援模式接管預(yù)先設(shè)定的備援作業(yè)程序,并進(jìn)行后續(xù)的程序及服務(wù)。
3) 自動(dòng)恢復(fù)(Auto-Recovery)階段:
在備機(jī)代替故障主機(jī)工作后,故障服務(wù)器可離線進(jìn)行修復(fù)工作。在故障修復(fù)后,透過專用通訊線與備機(jī)連線,自動(dòng)切換回修復(fù)完成的服務(wù)器上。整個(gè)回復(fù)過程完全可由SavWareHA自動(dòng)完成,亦可依據(jù)預(yù)先配置,選擇回復(fù)動(dòng)作為半自動(dòng)或不回復(fù)。
方案特點(diǎn)
本方案充分利用容錯(cuò)系統(tǒng)的特點(diǎn),為用戶提供一種在SCO平臺(tái)下不依賴于外加磁盤陣列柜的純軟件高可用性系統(tǒng)。它可以通過網(wǎng)絡(luò)連接在兩臺(tái)服務(wù)器之間實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)備份,同時(shí)又采用一些監(jiān)控手段,當(dāng)主服務(wù)器發(fā)生故障時(shí)可以把業(yè)務(wù)切換到備份服務(wù)器上使用,從而真正實(shí)現(xiàn)系統(tǒng)容錯(cuò),保證系統(tǒng)的高可靠運(yùn)作。
下面是其主要特點(diǎn):
1) 專業(yè)設(shè)計(jì)的硬件平臺(tái)——浪潮網(wǎng)通NL300服務(wù)器,采用對稱多處理器、ECC 內(nèi)存、冗余熱拔插電源、熱拔插硬盤、冗余風(fēng)扇等,提高了單機(jī)系統(tǒng)的可用性;
2) 自動(dòng)實(shí)時(shí)對數(shù)據(jù)進(jìn)行鏡像,自動(dòng)監(jiān)測工作主機(jī)的狀態(tài),并自動(dòng)對錯(cuò)誤的發(fā)生作出相應(yīng)處理;
3) 故障應(yīng)用自動(dòng)切換功能,可通過監(jiān)控業(yè)務(wù)的運(yùn)行情況,一旦發(fā)現(xiàn)業(yè)務(wù)運(yùn)行出錯(cuò),能夠自動(dòng)切換業(yè)務(wù)運(yùn)作服務(wù)器;切換發(fā)生時(shí),備份服務(wù)器自動(dòng)接管原來服務(wù)器的用戶連接、數(shù)據(jù)庫進(jìn)程、應(yīng)用進(jìn)程等,無需人工干預(yù);
4) 方便的用戶管理界面,靈活的管理方式,通過預(yù)留程序接口,方便用戶自行定義監(jiān)控的項(xiàng)目,自定義切換前后,將自動(dòng)執(zhí)行的關(guān)閉進(jìn)程指令集合及啟動(dòng)進(jìn)程指令集合;
5) 支持手工切換。用戶可以隨時(shí)將系統(tǒng)的控制權(quán)在兩臺(tái)主機(jī)之間切換;
6) 支持真正的在線連接與分離(兩臺(tái)主機(jī)通過網(wǎng)絡(luò)連接,可以支持帶電的連接與分離),利于用戶的系統(tǒng)維護(hù)等操作;
7) 系統(tǒng)具有極高的工作效率和廣泛的應(yīng)用,這是因?yàn)?,它只與SCO Unix操作系統(tǒng)緊密聯(lián)系,與數(shù)據(jù)庫及應(yīng)用無關(guān),因而它可以支持各種數(shù)據(jù)庫(包括ORACLE、Sybase、Informix等),和用戶在其上開發(fā)的各種應(yīng)用;
8) 與用戶的應(yīng)用系統(tǒng)無關(guān),用戶可以不加修改地使用他們的應(yīng)用;
結(jié)束語
本方案充分考慮中小型企業(yè)以及金融、電信、鐵路、證券的一些基層單位。通過利用對重要數(shù)據(jù)的鏡像,以及用戶應(yīng)用程序運(yùn)行主機(jī)的自動(dòng)切換功能,為重要業(yè)務(wù)的運(yùn)作提供有力的保障;而純軟件的方式,又可節(jié)約大量資金投入。

網(wǎng)公網(wǎng)安備