Подготовку кадров и инструментария для обработки и хранения данных NICA обсудили в МИФИ

Новости, 15 декабря 2023

12 декабря в Национальном исследовательском ядерном университете МИФИ прошло рабочее совещание МИФИ–ОИЯИ по компьютингу для мегасайенс-проекта NICA, посвященное обсуждению проблем, связанных с организацией процесса обработки и анализа данных экспериментов. Особое внимание было уделено вопросу создания систем для географически распределенной обработки и хранения данных. В повестку мероприятия вошла подготовка кадров для решения задач мегапроекта NICA.

В совещании, которое проходило в гибридном формате, приняли участие свыше 50 человек, в том числе споуксмены и координаторы разработки программного обеспечения и компьютинга всех трех основных экспериментов NICA: BM@N, MPD и SPD, — а также эксперты из ЛИТ, ЛФВЭ, ЛЯП ОИЯИ и специалисты МИФИ, которые вовлечены в эти три проекта и принимают участие как в создании самих детекторных комплексов, так и в разработке программного обеспечения для обработки данных и физического анализа.

Фото: © https://mephi.ru/

На совещания с приветственным словом к участникам обратилась проректор НИЯУ МИФИ Наталья Барбашина, особо подчеркнув важность сотрудничества между МИФИ и ОИЯИ. Открыл мероприятие доклад доцента НИЯУ МИФИ Аркадий Тараненко, посвященный активному участию сотрудников, аспирантов и студентов МИФИ во всех трех экспериментах BM@N, MPD и SPD на NICA. В следующем докладе директор Лаборатории информационных технологий ОИЯИ Сергей Шматов представил информацию о деятельности Лаборатории информационных технологий и о создаваемых на основе ресурсов Многофункционального информационно-вычислительного комплекса ЛИТ ОИЯИ IT-решений для мегапроекта NICA.

Сергей Шматов рассказал об основных результатах совещания. Главной его темой стала организация обработки, анализа, хранения, передачи и управления данными, которые будут получены в ходе реализации программы физических исследований экспериментов на NICA.

«Уже сейчас эксперимент на фиксированной мишени BM@N получает реальные данные, другие эксперименты работают с данными Монте-Карло моделирования – эти объемы уже довольно существенные, и возникает вопрос о том, как мы можем с ними работать», — сообщил Сергей Шматов. Существуют три аспекта этого вопроса: где физически хранить эти данные и как обеспечить их безопасность? Как будет организован доступ к данным, и какими программными средствами будет вестись обработка? Третий аспект – разработка инструментария, который будет использован для извлечения физической информации (программы реконструкции и идентификации элементарных частиц, физического анализа и т. д.).

Лейтмотивом на совещании проходил вопрос распределенной обработки и анализа данных. «Объем данных настолько большой, что, по аналогии с экспериментами на Большом адронном коллайдере, хранить их в пределах одного локального компьютерного центра, а также организовать вычисления и хранение этих данных, обработку и анализ просто физически невозможно», — прокомментировал Сергей Шматов. Он сообщил, что Объединенный институт, а именно Лаборатория информационных технологий, сможет покрыть потребности экспериментов в размере 25 %. Остальное придется на долю партнерских организаций — они будут создавать и поддерживать у себя вычислительные комплексы, которые будут объединены в глобальную систему обработки и анализа данных.

«На сегодня идет работа по двум направлениям: необходимо, чтобы в принципе такие системы, центры возникали, и второе – наработка того инструментария, который позволит нам связывать все эти центры воедино. Такой опыт есть, например, в рамках WLCG (Worldwide LHC Computing Grid), — это глобальный проект по компьютингу для экспериментов на БАК – мы собираемся такое повторить для российских проектов мегасайенс. Второе – в пределах нашей облачной инфраструктуры мы подключаем к ней центры, расположенные как в странах-участницах ОИЯИ, так и в других, для того чтобы мы могли быть завязаны в общую систему и могли с этими данными работать независимо от того, где мы географически расположены», — отметил Сергей Шматов. Объем сторонних вычислений пока невелик, однако позволяет уже сейчас проводить обучение сотрудников, наладку ПО и аппаратуры. Впоследствии, при увеличении объема данных, его можно будет масштабировать.

Другая причина, обуславливающая необходимость распределенного подхода, — это требования безопасности. Если все создается в одном месте, данные могут быть утрачены в результате форс-мажора. «Использование распределенного подхода, когда у нас есть реплики данных в других центрах, позволит нам обезопасить данные и избежать потерь в случае непредвиденных ситуаций», — пояснил директор ЛИТ ОИЯИ.

Кроме того, на совещании обсуждались вопросы подготовки высококвалифицированных специалистов для экспериментов на NICA, организации такой системы подготовки кадров, которая будет работать в уникальной области на стыке физики и IT. Профильные кафедры НИЯУ МИФИ предлагают магистерскую программу, которая позволит готовить специалистов одновременно по двум специальностям: физике элементарных частиц и информационным технологиям. Выпускники получат диплом сразу по двум специальностям.

На мероприятии прозвучал доклад научного руководителя ЛИТ Владимира Коренькова об истории создания, развитии и современном состоянии распределенных вычислений в физике высоких энергий. Опыт, накопленный в ЛИТ в этой области, обязательно будет востребован при создании компьютинга для экспериментов на NICA. В своих докладах Олег Рогачевский, Константин Герценбергер и Алексей Жемчугов, софтвер-координаторы экспериментов MPD, BM@N и SPD, соответственно, представили обзор программных систем и комплексов для моделирования, получения и обработки данных экспериментов на комплексе NICA, а также представили задачи, в решении которых могли бы принять участие сотрудники, аспиранты и студенты МИФИ. Большой интерес у участников совещания вызвал доклад научного сотрудника ЛИТ Игоря Пелеванюка, посвященного обработке и генерации данных в гетерогенной распределенной вычислительной среде под управлением платформы DIRAC, объединяющий вычислительные ресурсы и ресурсы хранения данных ЛИТ, ЛФВЭ, МИФИ и ряда других институтов, входящих в коллаборации NICA. В настоящий момент все три эксперимента на NICA используют DIRAC для решения своих задач. Заключительные доклады на совещании были посвящены подготовке специалистов для решения задач мегапроекта NICA. Так, в своем докладе научный сотрудник ЛИТ Оксана Стрельцова ознакомила участников совещания с опытом подготовки специалистов в области параллельного программирования, создания алгоритмов машинного и глубокого обучения, а также разработки IT-сервисов с использованием экосистемы ML/DL/HPC платформы HybriLIT. В докладе доцента МИФИ Евгения Солдатова была представлена новая магистерская образовательная программа НИЯУ МИФИ «Программная инженерия и анализ данных для физики высоких энергий».

По итогам совещания состоялась общая дискуссия, в результате которой было решено создать постоянный Совет МИФИ-ОИЯИ для консолидации усилий обеих организаций по решению проблем, стоящих перед участниками коллабораций экспериментов на комплексе NICA, в том числе для решения вопросов подготовки кадров.

Напомним, что мероприятие, посвященное мегасайенс-проекту NICA, проходит на базе НИЯУ МИФИ уже не в первый раз. Так, в прошлом декабре состоялся международный онлайн-семинар на тему методов анализа и обработки данных в экспериментах на ускорительном комплексе NICA.

Фото: © https://mephi.ru/