힉스입자를 발견한 대형 강입자충돌기(Large Hadron Collider, LHC)


에서 데이터 공개를 계획하고 있다






 

 

 

대형강입자충돌기(Large Hadron Collider) LHC가 계속 가동될 때에는 데이터가 범람하게 된다. 스위스 제네바 근교의 유럽입자물리학연구소인 CERN에 기지를 둔 이 시설에 있는 4개의 실험용 검출기들은 매년 25페타바이트(petabytes) 정도의 정보를 수집한다.

데이터 저장은 문제가 아니다. 왜냐하면 하드 드라이브는 저렴하며 점점 더 저렴해지고 있기 때문이다. 문제는 개별 실험 고유의 소프트웨어 알고리즘과 참고도표와 같은 덜 일반적으로 저장되는 지식을 보전하는 것이다. 이런 것들은 흔히 시간이 지남에 따라 질이 떨어지거나 사라진다고 프랑스 마르세유입자물리학센터(Marseilles Centre for Particle Physics)의 크리스티네 디아코누(Cristinel Diaconu)는 말했다. 그는 DPHEP(Data Preservation in Long Term Analysis in High Energy Physics) 연구단의 단장이다.

 

만약 데이터가 지금 상태로 계속 저장된다면 그 데이터를 10년 동안 해독하려는 물리학자들이 힉스보손(Higgs boson)의 발견을 재현할 수 없을 것을 그는 걱정하고 있다. “LHC 프로그램이 끝날 때에는, 그것은 아마도 여러 해 동안 이 영역에서의 마지막 데이터가 될 것이다. 그러한 데이터를 잃어버릴 수는 없다”고 그는 말했다.

따라서 DPHEP는 단순한 저장에서부터 시스템의 자유로운 공유에 이르기까지 데이터를 보존하기 위한 노력을 기울이고 있다. 그것들을 해석하는데 필요한 데이터와 지식은 실험 외부의 많은 사람들이 그것들을 지속적으로 이해하려고 노력한다면 오랜 시간 동안 살아남을 것이라는 것이 이들의 생각이다.

 

 

LHC의 4가지 실험들 중 하나인 CMS(Compact Muon Solenoid)의 물리학자인 카티 라실라-페리니(assila-Perini)는 이런 종류의 공유에 대해서 급진적인 생각을 하고 있다. 그것은 데이터를 초중등 학생에게 제공하자는 것이다. 내년에 그녀가 주도하고 있는 시험적인 계획을 통해 2010년 CMS 데이터가 배포될 것이며, 데이터의 포맷 정리와 저장은 핀란드의 과학IT센터(IT Center for Science)가 담당할 예정이다. 그 뒤 이 센터는 초증등 학생들과 이 데이터를 공유할 것이며, 학생들은 대중에 맞게끔 개조된 분석도구를 이용하여 입자붕괴의 도표를 재현할 것이다.

 

CMS는 더 많은 데이터를 수집 후 몇 년 동안 이용할 수 있도록 하는 계획을 갖고 있으며, 다른 데이터 센터들도 이와 같은 계획을 받아들이기를 라실라-페리니는 희망하고 있다. “우리는 우리가 더 이상 조사하지 않는 데이터들에 대해서 접근할 수 있도록 보장하려고 한다”고 그녀는 말했다.

 

 

목적은 후대를 위해서 데이터를 지키려는 것만이 아니다. 오래된 데이터는 새로운 이론들을 시험하기 위해 조사될 수 있으며 새로운 실험을 위한 결정적으로 중요한 기준들을 제공한다고 디아코누는 말했다. 예를 들면 2012년에 힉스입자가 발견되기 전에 LHC의 선배였던 거대전자양전자충돌기(Large Electron-Positron collider)는 물리학자들이 그 1990년대의 데이터를 조사하면서 다시 주목을 받았다.

 

그들은 당시에는 이론화되지 않았던 특이한 종류의 힉스를 기대하며 데이터들을 모았다. 이렇게 해서 데이터 보존과 공개의 목표는 ‘계몽적 자기이익(enlightened self-interest)’이라고 노트르담대(University of Notre Dame)의 물리학자인 마이클 힐드레스(Michael Hildreth)는 말했다. 그는 미국이 투자한 DASPOS(Data and Software Preservation for Open Science)의 책임자이며, DASPOS의 목적은 DPHEP와 비슷하다.

 

 

DASPOS는 저장되어야 하는 항목들의 점검표와 그 방법으로서 데이터보존용 템플릿을 제작하고 있다. 내년에 ‘큐레이션 챌린지(curation challenge)’를 통해서, DASPOS는 이 템플릿으로 수집된 정보만을 이용하여 다른 실험들로부터의 결과를 재현하는 임무를 물리학자들에게 부과할 예정이다. 한 가지 시험은 거의 확실히 LHC 데이터를 이용할 것이다.

 

예컨대 CMS 물리학자들에게 라이벌인 아틀라스(ATLAS) 실험의 결과를 재현하도록 요구할 것이다. 또 다른 시험은 천체물리학과 같은 다른 분야에서 수행될 수 있을 것이다. 만약 성공적이라면 데이터 보존의 일반적이고 단순화된 체계를 이 모형이 형성할 수 있을 것이라고 힐드레스는 말했다.

 

 

일부 문제는 끊임없이 변하는 알고리즘과 운영체제, 그리고 데이터분석 하드웨어를 복사하는 것이다. 함부르크 소재 DESY(German Electron Synchrotron)의 전산 코디네이터인 데이빗 사우스(David South)는 이미 이런 방식으로 데이터를 보호하려는 목적의 프로젝트를 주도하고 있다. 그의 팀은 DESY의 강입자-전자 고리 가속기(Hadron-Electron Ring Accelerator)에서 수행되는 실험들의 데이터와 소프트웨어를 자동으로 뒤져서 하드웨어나 운영체제가 바뀔 때에 호환성을 시험하는 시스템을 고안한 바 있다.

데이터를 새로운 플랫폼으로 계속 이동시키기 위한 이 계획은 SLAC 국립가속기연구소(National Accelerator Laboratory)의 BaBar 실험의 접근방식과는 대조적이다. 그곳에서는 분석에 필요한 여러 형태의 데이터와 운영체제들이 스토리지센터에 저장되어 있으며, 적어도 2018년까지는 접근이 가능할 것으로 생각되고 있다. DESY의 접근방식이 더 신뢰성 있다고 사우스는 말했다. 비록 임의의 비호환성은 사람의 간섭을 통해 수정되어야 하기 때문에 DESY의 시스템은 감시가 필요하지만, 문제를 몇 년 뒤에 더 심해졌을 때 처리하기 보다는 문제가 생겼을 때 처리하는 것이 목적이기 때문이다.

 

 

DESY의 과학자들은 그것을 알았을 것이다. 1990년대에, 물리학자들은 1979년부터 1987년 사이에 가동되었던 DESY 충돌기로부터 나온 데이터를 다시 조사함으로써, 쿼크들을 결속시키는 강한 상호작용을 더 깊이 조사하고 싶어했다. 그들은 결국 더 정밀한 측정을 할 수 있었지만, 유지되지 않았었던 데이터를 재건하는데 2년이나 걸렸다고 디아코누는 말했다.

 

데이터 보존자들은 재건 노력과 관련된 비용을 지적하는데 빠르다. 물론 보존에는 돈도 들지만, 그럴 가치가 있다고 DPHEP 프로젝트 매니저인 제이미 쉬어스(Jamie Shiers)는 말했다. 그는 데이터를 훌륭히 보존하는 비용은 LHC 가동비용의 약 1%로 책정했고, 그 금액은 연간 수백만 달러에 불과하다. “그게 옳다고 생각한다”고 그는 말했다. 

 

 

 

출처 : KISTI 미리안 글로벌동향브리핑

http://www.nature.com/news/lhc-plans-for-open-data-future-1.14244



www.jeongeum.co.kr

 


      비즈니스 정보실  |  2013.12.16 10:59



eesee's Blog is powered by Daum