中國科學院高能物理研究所陳剛:大數據技術在高能物理中的應用

2019年7月30日08:11:24中國科學院高能物理研究所陳剛:大數據技術在高能物理中的應用已關閉評論 53 views

現代大科學的標志為大科學機構、大科學工程和大科學裝置。大科學裝置常產生海量的數據,因此在大數據技術領域提出了巨大挑戰。國內外高能物理實驗研究是典型的大科學裝置,同時在不斷推動大數據技術及應用的發展。在應用需求的引導下,高能物理領域積累了大量的大數據存儲、計算處理和共享等技術和經驗。

中國科學院高能物理研究所陳剛:大數據技術在高能物理中的應用
高能物理的目標

高能物理的目標就是探索物質微觀結構、宇宙起源等自然規律。目前已經證明微觀世界有六種夸克(quarks),還有六種輕子(leptons),這些一起組成了宇宙萬物。這些粒子之間的相互組合主要有三種相互作用力:電磁相互作用力、強相互作用力以及熱相互作用力,當然,還有第四種力,那就是萬有引力。

高能物理,也叫粒子物理。我國也有很多高能物理的實驗,其中一個就是BEPCII/BESIII對撞機,它是世界先進的雙環對撞機,5年內將積累5PB 的數據,需要萬個CPU用于數據分析,中國、美國、德國、俄羅斯、日本等36個研究所參與合作。

另外,在亞灣反應堆做中微子實驗,有38個研究所300多名科學家參與合作,產生了4PB以上數據。在2012年發現中微子第三種震蕩,精確測量θ13同時,利用西藏羊八井得天獨厚的優勢,中意、中日合作進行宇宙線實驗,每年產生超過200TB的原始數據,數據需從羊八井傳回高能所,在傳到日本、意大利進行分析處理,合作單位能夠實時訪問數據。

高能物理的實際應用

在高能物理領域,實驗數據采集之后,還要面臨數據的傳輸、保存,以及計算等一系列的挑戰。這將會產生大量的數據,這個大數據的特點是隨機變量空間很大,產生的末態粒子極其豐富;精確測量需要大樣本。在計算過程中,也是非常復雜的,末態的模式復雜(隨機變量)。物理圖像還原非常復雜,如圖像處理、模式識別技術;擬合及誤差估計。

高能物理大數據的處理過程如下:第一,數據獲取與記錄。從探測器獲取RawData、蒙特卡洛產生數字化的二進制格式的電子信號;第二,數據處理。處理后Raw/MC Raw產生相關物理信息,如動量、對撞頂點等;第三,數據挖掘。由上千個屬性組成的DST事例文件,提供物理學家進行分析,并最后產生物理結果。

在“大數據(big data)”時代,PB級甚至EB的科學研究數據尤其需要在存儲模式、技術架構、共享傳輸、全球協同、高效處理等方面有所突破。

計算平臺的發展

計算平臺的發展歷程,與計算機發展歷程是完全一致的,經歷了從大型機,經集群,到網格,再到云計算的演變。本地計算集群是基礎,計算網格是“集群之集群”,需要整合計算資源。而云計算更注重平臺的通用性,提高資源利用率。因此需要對云計算與網格計算加以整合。

中國科學院高能物理研究所陳剛:大數據技術在高能物理中的應用
圖1是一個典型的本地集群架構。這個系統目前也仍在使用,但是隨著CPU的計算能力、存儲量越來越大的時候,系統就會出現問題。

目前世界上最成功的一個網格系統,實際上就是用來做高能物理的。它有若干分層,0級、1級、2級、3級,甚至一直到4級,這樣一個分布式的計算環境。0級中心主要接收原始數據,保存在磁帶系統中,并進行第一遍數據重建,向Tier1分發數據;一級中心(13個)主要提供原始數據備份,執行數據重建、分析等任務,并提供數據分發等網格服務;二級中心(>160個)主要執行模擬、數據分析等任務。

當然,計算集群或網格存在不足之處,如CPU資源利用率不足、遺留程序與操作系統不匹配、調度不靈活、運維成本高等問題。這時,就需要引入虛擬化和云計算。

虛擬計算集群在物理機和RMS(資源管理系統)之間構造虛擬層,將物理機虛擬化,形成多個虛擬機。同時,將RMS安裝在虛擬機上,對用戶完全透明,減少運維工作量,提高資源利用率。

歐洲核子研究中心的“CERN Cloud”是世界最大的虛擬集群之一,它基于Openstack構建,并于2013年開始運行。統一管理兩個數據中心(日內瓦與布達佩斯),其規模為4600個物理機,12.5萬顆CPU核,15000個虛擬機,2016年還將擴充資源。根據集群任務動態創建或刪除虛擬機,平均10秒鐘創建/刪除一個虛擬機。據了解,CERN團隊獲得Openstack巴黎峰會SuperUser大獎。

在國內,我們有自己的實驗和計算環境。例如,之前提到的BESIII分布式計算系統,采用Pilot與計算插件技術,整合合作單位的計算資源,能夠根據用戶作業的數目進行實時的虛擬機動態創建和刪除,實現資源彈性管理。共14個站點,分布在中國,美國,俄羅斯和意大利。

在先進信息化環境的支撐下,BESIII實驗一直領跑全球tau-粲物理研究。

2013年3月宣布發現了奇特態候選者--帶電類粲偶素Zc(3900);2013年6月18日,《自然》(nature)雜志就此發表了題為“夸克‘四重奏’打開了物質世界一扇嶄新的大門)”的新聞報道;這一成果被國際物理學頂級期刊、美國物理學會主編的《物理》雜志選為2013年國際物理學領域重要成果,在11個入選項目中位列第一;《粒子物理手冊》2014版收錄Zc(3900),是唯一收錄的在我國發現的新粒子!

高能物理的應用不同于互聯網文本數據挖掘,它具有以下特點:數據以對象方式存儲,使用C++庫訪問;非類型計算;隨機訪問;復雜的數據類型。

高能物理領域,實際上是一個大科學、大需求、大數據、大計算、大發現的過程。它要求多種計算技術,推動了信息化技術的發展。同時,多種信息化支撐手段也在推動高能物理科學的進步,這是一個相輔相成的過程。

(本文整理自中國科學院高能物理研究所副所長陳剛在第四屆中國科研信息化發展研討會上的演講“高能物理中的大數據技術”)

weinxin
掃碼,關注科塔學術公眾號
致力于成為國內領先的科研與學術資源導航平臺,讓科研工作更簡單、更有效率。內容專業,信息準確,更新及時。
avatar