Создание прототипа вычислительной фермы, построенной по технологии grid




Скачать 127.81 Kb.
Дата 08.09.2016
Размер 127.81 Kb.
Создание прототипа вычислительной фермы, построенной по технологии GRID
1. Постановка задачи

В настоящее время в Европейском Центре Ядерных Исследований (ЦЕРН – Швейцария, Женева [1]) в рамках международного сотрудничества с участием ученых из Западной Европы, США, России и других стран мира ведутся работы по подготовке экспериментов на Большом Адронном Коллайдере (БАК) [2], запуск которого планируется в 2007 году. Он станет крупнейшем в мире ускорителем заряженных частиц. Планируется достигнуть энергии встречных столкновений протонных пучков 14 ТэВ с рекордно высокой светимостью 1034-2с-1. Также на этом ускорителе готовятся эксперименты на пучках релятивистских ядер с энергией от 5.5 до 7 ТэВ на пару нуклонов (в системе центра масс) в зависимости от массы ядра. Участие России в проекте БАК – важнейшая часть национальной научной программы в области исследования фундаментальных свойств материи. Российские физики принимают активное участие в создании всех экспериментальных установок БАК (ATLAS, CMS, ALICE, LHCb), разработке программного обеспечения и программ физических исследований. Данные этих экспериментов позволят существенно развить представления о строении микромира и фундаментальных свойствах материи, получить новые знания о строении и эволюции Вселенной. Ожидается, что в процессе проведения экспериментов на БАК потребуется решение уникальных задач, в ходе которых будут созданы новые технологии с широким применением в промышленности и информатике. В качестве примера можно указать на создание всемирной информационной сети World Wide Web (WWW), начало которой было положено пионерскими разработками ученых ЦЕРН в начале 90-х годов при проведении экспериментов на ускорителе LEP.

В 1999 году в ЦЕРН начато создание проекта информационно-вычислительного комплекса БАК (ИВК БАК), который должен обеспечить обработку и хранение экспериментальных данных. ИВК БАК должен также обеспечить условия для проведения анализа тысячами физиков из многих стран мира, на основе которого и будут получены новые знания о фундаментальных свойствах материи.

Особенностью проекта БАК является огромный объем регистрируемых экспериментальных данных, что связано с большой энергией пучков и светимостью ускорителя. Например, в установках ATLAS и CMS будет фиксироваться в каждом около 100 событий взаимодействий протонов в секунду, или порядка 109 событий в год, каждое из которых имеет размер около 1 Мбайт. В целом по четырем установкам это составит поток информации порядка 4x109 Мбайт за год, при пиковой скорости ее поступления до нескольких Гбайт в секунду. При этом речь идет об уже первично обработанной информации, которая будет направляться на хранение для последующих этапов реконструкции. По сравнению с потоком данных, планируемых на втором этапе работы протон-антипротонного коллайдера ТЭВАТРОН (Национальная Лаборатория им. Ферми – FNAL – США, 2002-2004 гг.), это означает увеличение в 100 раз, а в сравнении с ускорителем LEP (завершившем работу в ЦЕРН осенью 2000 г.) в 1000 раз. Для обработки такого объема экспериментальной информации требуется эквивалент в 200000 самых быстрых современных ПК, что даже с учетом прогнозируемого роста быстродействия отдельных процессоров, тем ни менее диктует необходимость применения географически распределенной модели для построения ИВК БАК.

Концепция организации обработки данных до получения информации, пригодной для физического анализа, находится в стадии разработки экспериментами БАК. Признано, что весь объем информации с детекторов БАК после первичной реконструкции в ЦЕРН будет направляться для дальнейшей обработки в региональные вычислительные центры, одним из которых будет сам ЦЕРН.

В 2001 г. утверждена концепция создания регионального центра ИВК БАК в России [3], что позволит обеспечить российских ученых возможностью проведения полномасштабного анализа экспериментальных данных на БАК, и, тем самым, реализовать их равноправное участие в этих уникальных исследованиях. Только в таком случае вклад России в этот крупнейший международный научный проект начала XXI века приведет к конечной цели – получению российскими учеными нового фундаментального знания о строении материи.

Для обеспечения функционирования таких распределенных вычислительных систем необходим принципиально новый подход к технологии их создания и работы. Такой подход был реализован в концепции GRID [4] (название по аналогии с электрическими сетями – electric power grids) предполагает создание компьютерной инфраструктуры нового типа, обеспечивающей глобальную интеграцию информационных и вычислительных ресурсов на основе управляющего и оптимизирующего программного обеспечения (middleware) нового поколения. Для достижения этой цели создается набор стандартизированных служб для обеспечения надежного, совместимого, дешевого и всеобъемлющего доступа к географически распределенным высокотехнологическим и вычислительным ресурсам – отдельным компьютерам, фермам и суперкомпьютерным центрам, хранилищам информации, сетям, научному инструментарию и т.д.

Важнейшим моментом является междисциплинарный характер концепции GRID – уже сегодня развиваемые технологии применяются в самых разных прикладных областях [5]. В мире возникли сотни GRID-форумов и проектов – в физике высоких энергий, космофизике, микробиологии, экологии, метеорологии, различных инженерных приложениях (например, в самолетостроении).

Существуют два основных направления развития GRID технологий – вычислительный (computational) GRID, и data intensive GRID для интенсивных операций с большими базами данных. В вычислительном GRID создаваемая инфраструктура нацелена на достижение максимальной скорости расчетов за счет глобализации распределения (распараллеливания) вычислений. Одним из таких проектов является европейский проект EU-DataGRID [6], который был начат в 2001 г. по инициативе ЦЕРН для проведения в течение 3 лет работ по тестированию и развитию технологии GRID для реализации распределенной вычислительной модели БАК. Региональный центр, построенный по такой технологии, сможет обеспечить доступ физиков к полным базам данных, работа с которыми и их хранение будут организованы по архитектуре географически распределенной системы. Первая фаза этого проекта (2002-2004 гг.) подразумевает координированное внедрение GRID-технологий во всех научных организациях, участвующих в программе БАК, и создание прототипов оборудования и математического обеспечения, необходимого для проведения высокопроизводительных вычислений.

Сотрудники и студенты НОЦ МИФИ-МФТИ «Фундаментальные свойства материи в экстремальных состояниях» принимают активное участие в подготовке, в создании детектирующей аппаратуры и проведении двух экспериментов (ATLAS, ALICE) в рамках международного научно-технического сотрудничества по программе БАК. Поэтому, реализация данной концепции распределенной вычислительной модели и подключение к создаваемой в Московском регионе инфраструктуре российского регионального центра ИВК БАК обеспечит необходимую техническую поддержку для проведения исследований сотрудниками и студентами НОЦ по программе изучения фундаментальных процессов при высоких энергиях ядерной и субъядерной материи. Реализация проекта предоставит также дополнительные возможности по проведению дистанционных научных исследований и по дистанционному обучению студентов старших курсов по ядерно-физическим специальностям. Кроме того, дальнейшее развитие инфраструктуры GRID предусматривает ее использование и по другим научным направлениям деятельности НОЦ, где требуются высокопроизводительные вычисления. Это, в конечном итоге, позволит консолидировать работу различных научных групп Центра и значительно поднять эффективность всей его работы.


2. Создание прототипа компьютерной фермы на основе технологии GRID.

В 2003 году в МИФИ была создана вычислительная ферма из четырех компьютеров на базе процессоров INTEL Pentium-III (один из компьютеров – двухпроцессорный). Суммарная производительность фермы составляет около 170 SpecInt-95, общий объем оперативной памяти – 1384 Мбайт, общий объем дисковой системы – 200 Гбайт [7].

Все компьютеры фермы работают под управлением операционной системы Linux, версия 7.3. Компьютеры объединены в единую локальную сеть, а также имеют выход в Интернет по каналу связи с пропускной способностью 100 Мбит/сек .

Важным моментом при создании фермы является обеспечение гомогенной среды, когда для любого пользователя на любом из компьютеров данной фермы становится доступным единое программное обеспечение, а также его собственные программы и данные. Эта задача решена с помощью локальной сетевой файловой системы NFS (Network File System), а также системы авторизации пользователей NIS (Network Information System).

Система NFS позволяет сделать определенные разделы дисковой системы одного из компьютеров доступными для других компьютеров, входящих в ферму. В нашем случае один из компьютеров (lxfarm00) «экспортирует», т.е. делает доступными для других два своих раздела: раздел /opt, содержащий установленное программное обеспечение, и раздел /home, содержащий рабочие каталоги пользователей. Такой подход позволяет решить сразу несколько задач. Во-первых, это унификация программного обеспечения: каждый из компьютеров в ферме использует одни и те же программы просто потому, что берет эти программы из одного и того же места – общего раздела /opt. Во-вторых, это позволяет экономить дисковое пространство, поскольку нет необходимости держать одни и те же программы на дисках каждого из компьютеров. В-третьих, это значительно экономит время, обычно затрачиваемое на установку и тестирование программ, поскольку эти операции приходится выполнять только один раз. Экспортирование домашних каталогов пользователей (раздела /home) решает аналогичные задачи: во-первых, создает для пользователей на любом из компьютеров единую собственную рабочую среду, во-вторых, экономит дисковое пространство. Сказанное иллюстрировано схемой, приведенной на Рис.1.

Система NIS позволяет единым образом проводить авторизацию пользователей на всех компьютерах фермы. В результате любой пользователь, войдя на любой из компьютеров фермы, получает единую рабочую среду: он всегда имеет один и тот же собственный рабочий каталог и один и тот же набор программного обеспечения. Другими словами, пользователь может не задумываться над тем, на каком из компьютеров фермы он работает – все программы, как общие, так и его собственные, будут выполняться на любом из компьютеров одинаково.






Рис.1. Схема, иллюстрирующая соединение компьютеров в ферме и «экспортирование» дисковых разделов /home и /opt, содержащих соответственно домашние каталоги пользователей и общее для фермы программное обеспечение.

Кроме того, ферма была подключена к единой глобальной дисковой системе AFS (Andrew File System) [8]. Эта система была разработана в середине 90-х годов в университете Карнеги-Меллон (Питтсбург, США) и получила широкое распространение в научном секторе Интернета. В отличие от системы NFS, которая может эффективно работать только в локальной сети, AFS, напротив, предназначена для совместного использования дискового пространства компьютерами, разбросанными по всему миру. Практически все крупнейшие научные центры, связанные с физикой элементарных частиц, используют файловую систему AFS как для хранения программного обеспечения, так и для домашних каталогов пользователей. Эту систему отличает удобство использования с одной стороны, и надежность и безопасность с другой. Быстрый доступ к файлам осуществляется за счет многоуровневой промежуточной буферизации файлов. Надежность и безопасность этой системы обеспечиваются наличием шифрованных паролей с ограниченным временем жизни, а также ежесуточным автоматическим резервным копированием всех пользовательских файлов на магнитную ленту с возможностью быстрого восстановления случайно утраченной информации.

Вычислительная ферма МИФИ подключена в качестве клиента к AFS-серверам ЦЕРН в связи с тем, что основное сотрудничество и по линии исследования фундаментальных свойств материи и по линии развития GRID-технологий МИФИ ведет в основном с ЦЕРН. Доступ из МИФИ к файловой системе AFS позволит напрямую обращаться к программному обеспечению различных экспериментов, что значительно упростит интегрирование этого программного обеспечения в среду GRID.

Еще одним важным компонентом любой вычислительной сети на основе GRID технологий, является система управления заданиями (batch система). На ферме МИФИ была установлена batch система PBS. Суть системы состоит в следующем. Пользователь, желающий выполнить задание на одном из компьютеров фермы, составляет по некоторым правилам специальный файл, в котором указывает, какую именно программу он хочет выполнить, и какие ресурсы (входные данные, требуемое процессорное время и т.п.) ему для этого необходимы. Система сама решает, на каком из компьютеров фермы это задание будет выполняться с учетом текущей загрузки процессоров, их быстродействия, а также запрошенных пользователем ресурсов. При этом достигается максимальная интегральная производительность вычислительной фермы, а пользователь избавлен от необходимости самому просматривать текущее состояние всех ресурсов, с целью определения наименее загруженного процессора, наличия необходимого дискового пространства и т.п.

На Рис.2 и Рис.3 приведены примеры работы двух программ системы PBS, служащих для постановки заданий в очередь, а также для мониторирования загрузки системы.




Р
ис.2. Программа xpbs служит для мониторирования загрузки различных «очередей», в которые пользователь ставит свои задания.


Рис.3. Другая программа – xpbsmon – показывает загрузку компьютеров, входящих в ферму и работающих под управлением batch системы PBS.

3. Установка программного обеспечения.

Для реальной работы на ферме необходимо иметь соответствующее программное обеспечение, как общего назначения, так и разработанное специально для конкретных экспериментов. Именно такое программное обеспечение превращает компьютерный центр из “груды железа” в мощный инструмент для обработки экспериментальных данных и моделирования современных, как правило, очень сложных и объемных экспериментов в физике высоких энергий.

На ферме было установлено и отлажено следующее программное обеспечение (в качестве иллюстраций приведены примеры различных работ, проводимых на ферме):


  1. Пакет так называемых ЦЕРНовских библиотек. Состоит в основном из программ, написанных на языке Фортран. Включает в себя множество библиотек, а также пакеты программ HBOOK, PAW, GEANT3, ISAJET, HIGZ и др., предназначенных для моделирования физических процессов (ISAJET, GEANT3), для обработки результатов (HBOOK, PAW) и их графического представления (PAW, HIGZ).



Рис. 4. Использование пакета GEANT3 для моделирования адронного калориметра установки TESLA.




Рис.5. Пример работы с пакетом ROOT.





  1. Пакет ROOT. Написан на языке C++ и представляет собой интегрированную среду, включающую в себя множество С++ классов, средства ввода-вывода, а также средства обработки результатов и их графического представления. На основе ROOT в настоящее время создаются пакеты программ многих экспериментов в области физики высоких энергий.




0,5 1,3 3,6 9,7 25,9 69,5 186,4 500,0 ГэВ


Рис.6. Три смоделированных с события для БПСТ. Три столбца слева направо соответствуют энергии проходящих мюонов 74 , 180 и 150 ТэВ. Ячейки на рисунке - сцинтилляционные счетчики телескопа. Каждый ряд представляет плоскость счетчиков (справа от плоскости нанесен ее номер). Пятнами показаны энерговыделения в счетчиках по приведенной шкале. Под каждой плоскостью приведена величина энерговыделения в данной плоскости.


  1. Пакет GEANT4. Написан на языке C++ и предназначен для моделирования физических процессов взаимодействия частиц, процессов прохождения частиц через установку, а также графического представления такого моделирования. Примеры смоделированных с помощью пакета GEANT4 событий для Баксанского Подземного Сцинтилляционного Телескопа (БПСТ) показаны на Рис.6.



Рис.7. Схема установки ALICE, полученная с помощью пакета ALIROOT.



  1. Пакет ALIROOT. Представляет собой комплекс программ эксперимента ALICE, готовящегося на ускорителе БАК в ЦЕРН. Написан на языке C++ и основан на пакетах программ ROOT, GEANT3 и GEANT4. На Рис. 7 приведена схема экспериментальной установки ALICE, полученная с помощью пакета ALIROOT.




Рис.8. Пример обработки с помощью пакета ATLSIM экспериментальных данных, полученных в тестовом пучке ускорителя SPS в ЦЕРН при испытании прототипа детектора переходного излучения TRT для эксперимента ATLAS.





  1. Пакет ATLSIM. Представляет собой интегрированную среду для моделирования эксперимента и обработки данных. Включает в себя в качестве составных частей такие пакеты, как GEANT3 и PAW. На Рис.8 показан пример обработки экспериментального события при испытаниях прототипа трекового детектора переходного излучения для эксперимента ATLAS в тестовом пучке ускорителя SPS в ЦЕРН.


4. Заключение и планы.

В 2003 году в МИФИ была создана вычислительная ферма – прототип GRID-узла, предназначенная для проведения расчетов в области физики высоких энергий. Установлено соответствующее программное обеспечение. В настоящее время на компьютерах фермы сотрудники, аспиранты и студенты проводят различные расчеты, связанные как с обработкой экспериментальных данных, так и моделированием.



В 2004 году планируется:

  1. Увеличение мощности вычислительной фермы. Для этого частично уже закуплено, частично будет закуплено в 2004 году дополнительное оборудование, прежде всего - высокопроизводительные серверы на базе процессоров класса Xeon или Pentium-4. Будут также закуплены жесткие диски с суммарной емкостью до 1 Тбайт для хранения данных.

  2. Подключение к 1 Гбит каналу связи между институтами – участниками проекта GRID в Москве (НИИЯФ МГУ, ИТЭФ и др.). Наличие высокоскоростных каналов связи является непременным условием успешного функционирования GRID-сетей.

  3. Установка и отладка программного обеспечения GRID. В мире существует несколько различных программных пакетов, позволяющих подсоединять локальные кластеры к сетям GRID. Мы планируем использовать пакет EU-DataGrid, в разработке которого активную роль играет ЦЕРН.

  4. Формальная регистрация кластера как узла GRID-сети. Получение соответствующих сертификатов. Для работы в сети GRID как компьютерный кластер в целом, так и отдельные пользователи должны получить соответствующее разрешение (сертификат). Сертификация проводится уполномоченными региональными центрами. В России роль такого центра поручена НИИЯФ МГУ.

  5. Тестирование кластера. После создания и сертификации GRID-кластера в МИФИ предполагается провести его всестороннее тестирование. На этом этапе потребуется тесная координация действий с другими GRID-центрами. В России это могут быть, например, МФТИ, ИФВЭ и НИИЯФ МГУ, а за рубежом - ЦЕРН.

  6. Создание учебного класса. Планируется подключить несколько персональных компьютеров в аудитории В-108, установить на них операционную систему Linux, программное обеспечение, используемое в физике высоких энергий и подключить эти компьютеры в качестве рабочих станций к GRID-ферме.

Реализация этих планов откроет новые возможности по применению передовых информационных GRID-технологий в научно-исследовательской и образовательной деятельности НОЦ.

Список литературы

  1. http://www.cern.ch

  2. http://lhc.web.cern.ch

  3. http://theory.sinp.msu.ru/~ilyin/RIVK-BAK

  4. “The Grid: Blueprint for a New Computing Infrastructure” Ed.: I. Foster and C. Kesselman, Morgan Kaufmann, 1999.

  5. Смирнов С.Ю. Интернет следующего поколения - всемирная сеть распределенных вычислений GRID. Сб. тр. науч. сессии МИФИ-2002, т.10.

  6. http://www.eu-datagrid.org

  7. Метечко В.И., Смирнов С.Ю. Создание многопроцессорной вычислительной фермы в рамках концепции распределенной сети GRID. Сб. тр. науч. сессии МИФИ-2003, т.10

  8. http://www.openafs.org

  9. http://www.pbspro.com


База данных защищена авторским правом ©infoeto.ru 2022
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница