一、 應用單位
新疆油田公司勘探開發研究院地球物理研究所(以下簡稱新疆石油地物所),位于新疆首府烏魯木齊,是集石油地震勘探數據處理、資料解釋及地質綜合研究和計算機軟件開發為一體的高科技單位。2006年中油股份公司為改善勘探環境,對新疆油田PC集群地震處理系統進行了擴充。目前該所已擁有1000多個計算節點1900多個CPU的PC集群地震處理系統、56個CPU的SGI Origin 2000并行計算機系統、200多套高性能圖形工作站,數據存儲系統總容量達到了180TB。多臺萬兆高效交換機進行互聯,使新疆油田公司物探技術水平繼續保持在世界領先水平。被稱為中國西北地區最具影響力的地震資料處理解釋中心。
二、 項目背景
新疆石油地物所肩負的石油勘探地震資料處理工作的主要原理是,通過人工的方式產生地震信號(放炮),然后將地下地質的地震信號,通過地面感應器提取后,利用大型計算機或機群(Cluster)(包括刀片服務器集群和普通服務器集群)通過專業的Paradigm epos 3 .0、 CGG geocluster 4.1等多套處理軟件系統和一套完整的疊前時間、深度偏移系統,進行資料的處理工作,形成地下的構造以及成像,從而掌握地下的油氣構造,為石油鉆井提供更加可靠的勘探數據。針對新疆應用服務器管理方面,具體需求主要體現在以下幾個方面:
大量勘探地震資料處理系統的快速部署。勘探地震資料處理往往需要使用大量的計算節點并行執行,雖然新疆油田公司地球物理研究所現有地震處理軟件可以完成計算任務在這些節點上的自動分發,但與之匹配的操作系統以及相關配置信息的部署工作卻依然難以統一、快速的完成,這極大地增加了系統管理人員的負擔與啟動計算任務所需的準備時間。
計算資源的調度與充分利用。石油地震資料的處理帶有鮮明的階段特征,每一階段的處理內容、計算規模以及系統要求都截然不同,這些系統層面的差異導致計算資源無法被充分的調度以滿足不同任務不同階段的計算需求,而固定每個節點計算任務的使用模式又無法對計算資源進行充分的利用。
降低管理與維護成本。雖然兼具高性能與高可靠性的SAN或NAS設備已經廣泛應用于存儲領域,然而PC集群所裝備本地磁盤卻遠遠無法達到與之匹配的可用性,磁盤以及磁盤相關的散熱裝置損壞已成為大規模集群管理與維護的主要負擔,而硬件Raid以及全光纖SAN連接的成本也無法被計算集群所接受。
節省能源消耗。供電保障、冷卻和總體能源消耗已成為國內外超大型數據中心的主要成本負擔與發展瓶頸之一,縮短部署、調度甚至等待的時間,將從最大程度上提升系統單位能耗下的有效計算能力,同時可以盡可能的降低對機房供電保障和冷卻系統的負擔。
異構系統的支持。目前集群存儲系統只支持Linux客戶端、很少有支持其他系統客戶端。
隨著新疆石油地物所計算規模的不斷擴大,更有效的快速部署、調度與高可靠性方案將成為充分利用計算資源、降低能耗與維護成本的自然訴求,異構平臺的支持、海量存儲環境的高可用性,是保障計算環境高效、穩定工作的基礎。
三、 解決方案
下圖是根據新疆石油地物所目前環境進行針對客戶的需求的bladmin存儲管理服務器實施圖
Bladmin架構的新疆石油地物所網絡拓撲圖
通過Bladmin網絡存儲的新型計算環境管理系統,使用低成本的千兆以太網絡直接啟動計算節點,并且采用IP SAN技術儲存服務器中的系統數據。
Bladmin由管理服務器、網絡存儲設備和計算節點(服務器節點集群包括:刀片服務器集群、塔式服務器集群、機架式服務器集群)等硬件通過高速互聯網絡連接而成,并在該系統中運行Bladmin系統管理軟件。管理服務器和網絡存儲設備可以共用一臺物理機,我們統稱為存儲管理服務器。
本系統提供集中、可靠、安全、穩定的數據存儲功能,并實現大量計算節點的快速部署、角色的動態切換、節點監控等模塊功能。
在本系統中:
網絡硬盤:網絡中的所有存儲資源統一存放在存儲管理服務器上,形成一個大的虛擬存儲池,存儲管理服務器將該存儲池中的存儲空間按需分割成任意大小,供集群計算節點使用。每個空間稱為一塊“網絡硬盤”。服務安裝在網絡硬盤上,集群計算節點通過網絡,可以把網絡硬盤映射成為本地硬盤,通過運行硬盤上的服務來滿足計算節點的使用需求。
服務(操作系統以及應用軟件的組合):存放在相應的網絡硬盤上(網絡硬盤都集中存放在存儲管理服務器上);
計算節點啟動后,Bladmin把網絡硬盤映射成為計算節點的本地硬盤使用;
存儲管理服務器完成整個系統內部運轉的監控管理任務,并為其提供統一的存儲池。
四、 用戶價值
五、 應用效益
新疆石油地物所通過使用bladmin系統,通過按需分配、快速部署、靈活切換調度、時時監控等功能,不僅使新疆石油地物所的計算作業成功率提高了一倍,而且在管理和維護方面真正起到了快捷方便的功效。對人員來說,減短了大量的工作任務;對長期使用的節點來說,本地硬盤的節省間接的提高了計算節點的壽命,節省了損壞造成的成本控制;對提高工作效率來說,充分體現了省時省力;對資源的分配上,使各個節點的使用率大幅度提升;對快速轉換來說,部署功能快捷、方便、按需分配體現的淋漓盡致。