Межведомственный суперкомпьютерный центр РАН



Межведомственный суперкомпьютерный центр Российской академии наук (сокр. МСЦ РАН) — государственное научное учреждение РАН, расположенное в Москве, с филиалами в Санкт-Петербурге (СПбФ МСЦ РАН) и Казани (КазФ МСЦ РАН).

История

МСЦ РАН создан 26 декабря 1995 года совместным решением Президиума Российской академии наук (РАН), Министерства науки и технологий Российской Федерации, Министерства образования Российской Федерации и Российского фонда фундаментальных исследований (РФФИ).

В 1998 году для центра были выделены помещения в новом здании Президиума РАН. В 1999 году центр был открыт.

МСЦ участвует в двух общеевропейских проектах:

  • Единая глобальная образовательная и научная сеть (GEANT)
  • Распределенная европейская инфраструктура для суперкомпьютерных приложений (DEISA)

Сотрудники

Коллектив МСЦ РАН состоит из высококвалифицированных научных сотрудников, программистов и инженеров. В настоящее время в МСЦ РАН работают 95 сотрудников, в том числе 3 академика, 2 члена-корреспондента РАН, 9 докторов и 19 кандидатов наук.

Директор центра — Шабанов Борис Михайлович.

Центр имеет два филиала в Санкт-Петербурге и Казани. При МСЦ работают базовые кафедры Московского физико-технического института (МФТИ), Московского института электронной техники (МИЭТ), Московского института радиотехники, электроники и автоматики (МИРЭА), на которых обучаются более 100 студентов.

С мая 2004 года совместно с Научно-исследовательским вычислительным центром МГУ выпускает список Тор50 самых мощных компьютеров СНГ.

Суперкомпьютеры

В МСЦ РАН есть суперкомпьютеры:

МВС-10П

Пиковая производительность — 523.8 ТФЛОПС. Производительность на тесте LINPACK — 375.7 ТФЛОПС. В состав кластера входит 207 вычислительных узлов. Каждый вычислительный узел имеет в своем составе 2 процессора Xeon E5-2690, 64 ГБ оперативной памяти, два сопроцессора Intel Xeon Phi 7110Х.

МВС-10П является энергоэффективным суперкомпьютером, что подтверждено результатами рейтинга Green500 (30 место, 1949 МФЛОПС/Ватт).

Все вычислительные узлы объединяются в 3 сети:

коммуникационную и транспортную сеть на базе FDR Infiniband; сеть мониторинга и управления на базе Gigabit Ethernet; управления заданиями на базе Gigabit Ethernet. На комплексе установлены две системы управления прохождением задач: СУППЗ и SLURM.

МВС-100K

МВС-100K в ноябре 2008 г. занял 36 место в списке Top500. На сегодняшний день производительность — 227.94 ТФЛОПС, производительность на тесте LINPACK — 119.93 ТФЛОПС. В состав суперкомпьютера входят 1275 вычислительных модуля, каждый из которых оснащён двумя четырёхъядерными/шестиядерными процессорами Intel Xeon. Для объединения узлов кластера в единое решающее поле используется технология Infiniband.

Назначение

Суперкомпьютер (СК) «МВС-100K» предназначен для решения сложных научно-технических задач.

Пиковая производительность СК составляет 227,94 TFlops.

Программные и аппаратные средства СК «МВС-100K» позволяют решать одну задачу с использованием всего вычислительного ресурса, а также разделять решающее поле на части требуемого размера и предоставлять их нескольким пользователям.

Общая структура «МВС-100K»

В состав технических средств СК «МВС-100K» входят:

  • решающее поле из 1275 вычислительных модулей (10572 процессорных ядер, 152 GPU);
  • управляющая станция и узел доступа на базе двух процессоров Intel Xeon;
  • коммуникационная сеть Infiniband DDR, построенная с использованием коммутаторов Voltaire и Cisco;
  • транспортная сеть Gigabit Ethernet/10 Gigabit Ethernet;
  • управляющая сеть Gigabit Ethernet;
  • системная консоль;

Вычислительный модуль

Вычислительные модули СК «МВС-100K» построены на основе серверов HP Proliant. Всего используются модули четырёх разных типов:

  • 990 узлов: два четырёхъядерных микропроцессора Intel Xeon E5450, работающих на частоте 3 ГГц, объём оперативной памяти 8 ГБайт;
  • 192 узла: два четырёхъядерных микропроцессора Intel Xeon X5365, работающих на частоте 3 ГГц, объём оперативной памяти 8 ГБайт;
  • 74 узла: два шестиядерных микропроцессора Intel Xeon X5670, работающих на частоте 2,93 ГГц, объём оперативной памяти 12 ГБайт;
  • 19 узла: два шестиядерных микропроцессора Intel Xeon X5675, работающих на частоте 3 ГГц, восемь графических ускорителей Nvidia Tesla M2090, объём оперативной памяти 192 ГБайт;

Кроме того, все вычислительные узлы оборудованы:

  • жёстким диском объёмом не менее 36 ГБайт;
  • интерфейсной платой HP Mezzanine Infiniband DDR;
  • двумя интегрированными контроллерами Gigabit Ethernet.

Сетевые решения

Вычислительные модули связаны между собой высокоскоростной коммуникационной сетью Infiniband DDR, транспортной и управляющей сетями Gigabit Ethernet.

Коммуникационная сеть Infiniband DDR предназначена для высокоскоростного обмена между ВМ в ходе вычислений. Сеть реализована двумя уровнями коммутаторов. Скорость двунаправленных обменов данными между двумя ВМ с использованием библиотек MPI находится на уровне 1400 Мбайт/сек. Латентность между двумя соседними узлами составляет 3.2 мкс, самыми дальними 4.5 мкс.

Транспортная сеть Gigabit Ethernet предназначена для соединения решающего поля с управляющей станцией, параллельной файловой системой и файл-сервером.

Управляющая сеть, построенная с использованием технологии Gigabit Ethernet, предназначена для запуска программ на счёт вычислительными модулями, а также для передачи служебной информации о ходе вычислительного процесса и состоянии подсистем.

Программное обеспечение

Программное обеспечение «МВС-100K» поддерживает все этапы разработки параллельных программ, а также обеспечивает выполнение процессов обработки данных на решающем поле. При выборе программного обеспечения использовался принцип преемственности с системой «МВС-6000IМ» для облегчения переноса программ на новый кластер.

На «МВС-100K» установлено следующее программное обеспечение:

  • операционная система вычислительных модулей — ОС CentOS 5.6;
  • программные средства коммуникационных сетей Infiniband, Ethernet;
  • среда параллельного программирования — пакет MVAPICH;
  • инструментальные программные средства разработки системного и прикладного программного обеспечения, включающие оптимизирующие компиляторы с языков Си, C++ (icc) и Фортран-77, 90 (ifc) фирмы Intel;
  • математические библиотеки MKL фирмы Intel;
  • система коллективного использования ресурсов СК — система управления прохождением пользовательских задач (СУППЗ), разработанная ИПМ РАН;
  • программные средства удаленного доступа (ssh);

На кластере также установлены средства профилирования параллельных программ, инструменты параллельного администрирования, управления и тестирования кластера, позволяющие осуществлять проверку состояния и диагностику узлов кластера, создание и модификацию пользовательских бюджетов на узлах кластера, параллельные операции над файлами и выполнение операций на всех узлах кластера.

Прошлые суперкомпьютеры

МВС-15000BM

МВС-15000BM с пиковой производительностью 10,1 TFlops в июне 2006 года занял 70 место в списке Top500 и стал самым мощным российским суперкомпьютером. В его состав входило 574 двухпроцессорных узла на базе процессоров IBM PowerPC 970FX, работающих на частоте 2,2ГГц и объединённых сетью Myrinet. В настоящее время в рамках программы РИСП он превращён в распределённую систему МВС-15000BMD, части которой установлены во Владивостоке (СЦ ИАПУ ДВО РАН), Казани (КНЦ РАН), Москве (МСЦ РАН), Санкт-Петербурге (филиал МСЦ РАН) и Черноголовке (ИПХФ РАН).

МВС-6000IM

Суперкомпьютер (СК) «MBC-6000IM» предназначен для решения сложных научно-технических задач.

Пиковая производительность СК «MBC-6000IM» составляет 1,64 TFLOPS. Общий объём оперативной памяти решающего поля — 256 Гбайт. Потребляемая мощность составляет 50 кВА.

Программные и аппаратные средства СК «MBC-6000IM» позволяют решать одну задачу с использованием всего вычислительного ресурса, а также разделять решающее поле на части требуемого размера и предоставлять их нескольким пользователям. В состав технических средств СК «MBC-6000IM» входят:

  • решающее поле из 256 процессоров Intel® Itanium® 2. Двухпроцессорные вычислительные модули (ВМ) размещены в 7 стойках. Первые два ВМ являются front-end серверами и предназначены для подготовки программ к исполнению на СК. Восемь ВМ из первой стойки могут быть использованы в процессе разработки и отладки приложений;
  • параллельная файловая подсистема, состоящая из 8 двухпроцессорных улов ввода-вывода и 4 дисковых полок общей емкостью 8 ТБайт, и 10-ти портового коммутатора Gigabit Ethernet. Оборудование файловой системы размещено в одной стойке;
  • файл-сервер NetApp F840, общая емкость 4 ТБайта;
  • управляющая станция HP RX-200;
  • транспортная сеть Myrinet 2000, построенная на 128-ми портовом коммутаторе Myricom M3-128;
  • транспортная сеть Gigabit Ethernet, ядром которой является высокопроизводительный коммутатор CISCO 6509. Для связи с сетью МСЦ коммутатор использует 10 Гбитные каналы связи;
  • управляющая сеть Fast/Gigabit Ethernet. Центральным коммутатором является CISCO 6509, являющийся ядром транспортной сети. Второй уровень организован на 3-х коммутаторах HP Procurve Switch 2650;
  • системная консоль;
  • система бесперебойного электропитания.

1. 2 процессора Intel® Itanium 2® 2. Вентиляторы с горячей заменой 4. Блок питания с горячей заменой 5. Дисковые приводы с горячей заменой 6. 12 разъемов памяти 7. 4 разъема PCI-X для устройств ввода/вывода 8. Плата управляющего процессора (опция)

Основные характеристики вычислительных модулей HP RX-2620:

  • Тип корпуса: монтируемый в стойку высотою 2 вершка HP Integrity RX-2620 сервер отдельно
  • Процессоры: 64-разрядный процессор Intel® Itanium-2® 1.6 ГГц.
  • Кэш-память на кристалле процессора:
  • первого уровня — 32КБ
  • второго уровня — 256КБ
  • третьего уровня —3 МБ
  • Оперативная память:
  • объём: 2 ГБ (4 модуля по 512 Мбайт)
  • пропускная способность шины— 8,5 ГБ/сек
  • стандарт используемой памяти: PC2100 ECC DDR266A SDRAM
  • Внутренние информационные накопители:
  • жесткие диски: 1 НЖМД объёмом 36 ГБ (15000 об./мин.)
  • Набор микросхем для системной платы: Hewlett-Packard ZX-1
  • Разъемы расширения для подключения дополнительных устройств:
  • разъемы PCI-X: 4 полноразмерных, 64-разрядных 133 МГц слота PCI-X,
  • пропускная способность:
  • 1,0 ГБ/сек для разъема номер 1
  • 0,5 ГБ/сек для разъемов номер 2,3,4
  • блок питания с автоматической настройкой по напряжению и частоте тока:
  • максимальная мощность 600 Вт
  • входные параметры питания — 100—127 В ~8,0 А/200-240 В ~3,9 A
  • частота тока — 50—60 Гц
  • условия эксплуатации и хранения
  • Рабочая температура от +5 до +35 °С
  • рабочая влажность от 15 до 80 %

Платформа ВМ Сервер HP RX-2600 поддерживает два процессора Intel® Itanium® 2, соединенных с контроллером памяти и ввода/вывода набора микросхем HP ZX1 посредством системной двунаправленной 128-битной шины. Общая пропускная способность системной шины 6.4 Гбайт/с. Контроллер памяти и ввода/вывода набора микросхем HP ZX1 Chipset:

соединяет процессоры с шиной содержит котроллер памяти содержит контроллер кэша ввода/вывода Адаптер ввода/вывода набора микросхем HP zx1 Chipset I/O — один адаптер ввода/вывода поддерживает:

PCI PCI-X AGP Пиковая производительность одного ВМ составляет 6,4 млрд операций с плавающей точкой с двойной точностью в секунду.


Сетевые решения

Вычислительные модули связаны между собой высокоскоростной коммуникационной сетью Myrinet (пропускная способность 2 Гбита/сек), транспортной сетью Gigabit Ethernet и управляющей сетью Fast Ethernet.

Коммуникационная сеть Myrinet предназначена для высокоскоростного обмена между ВМ в ходе вычислений. Сеть реализована на базе 128 портового полносвязного коммутатора. При двунаправленном обмене данными между двумя ВМ с использованием протоколов MPI достигается пропускная способность на уровне 450—500 Мбайт/сек.

Транспортная сеть Gigabit Ethernet предназначена для соединения решающего поля с управляющей станцией, параллельной файловой подсистемой и файл-сервером NetApp F840.

Сеть Fast Ethernet предназначена для начальной загрузки программ и данных в ВМ, а также для передачи служебной информации о ходе вычислительного процесса и состоянии подсистем.


Программное обеспечение

Комплект программного обеспечения СК «MBC-6000IM» включает:

  • общее программное обеспечение;
  • подсистему удаленного управления и непрерывного мониторинга СК «MBC-6000IM»;
  • подсистему коллективного доступа к ресурсам СК «MBC-6000IM»;
  • подсистему параллельного доступа к файлам.
Общее программное обеспечение

Компоненты общего программного обеспечения (ОПО) СК «MBC-6000IM» поддерживают все этапы разработки параллельных программ пользователей, а также обеспечивают непосредственно выполнение процессов содержательной обработки на решающем поле. Они функционируют на ВМ и управляющей ЭВМ.

В состав ОПО СК «MBC-6000IM» входят:

  • операционная система вычислительных модулей — ОС Linux RedHat Advanced Server for IA64 с поддержкой SMP (версия ядра не ниже 2.4.21-20);
  • операционная среда параллельного программирования — пакет MPICH for GM (версия не ниже 1.2.6..14b);
  • программные средства коммуникационных сетей Myrinet (версия GM не ниже 2.0.21), Ethernet;
  • инструментальные программные средства разработки системного и прикладного программного обеспечения, включающие оптимизирующие компиляторы с языков Си, Си++, Фортран-77, Фортран-90 фирмы Intel (icc — Intel C++ Compiler 9.0, ifc — Intel Fortran Compiler 9.0), а также средства профилирования параллельных программ;
  • средства параллельного программирования DVM, MPC, BERT-77;
  • математические библиотеки MKL — Intel Math Kernel Libraries 7.2;
  • Средства профилирования и отладки параллельных программ — Intel VTune Performance Analyzer for Linux;
  • средства интеграции ресурсов разных вычислительных комплексов (Globus Toolkit);
  • система управления прохождением параллельных задач (СУППЗ), предназначенная для удобного и эффективного использования вычислительных ресурсов кластера при большом количестве пользователей. СУППЗ разработана в ИПМ РАН;
  • программные средства удаленного доступа;
  • средства параллельного администрирования, управления и тестирования кластера, позволяющие осуществлять: проверку состояния и диагностику узлов кластера, создание и модификацию пользовательских бюджетов на узлах кластера, параллельные операции над файлами и выполнение операций на всех узлах кластера.
  • При выборе компонентов программного обеспечения используется принцип преемственности с системами МВС-1000М и МВС-15000BM.

    Подсистема удаленного управления и непрерывного мониторинга

    Подсистема удаленного управления и непрерывного мониторинга работы СК «MBC-6000IM» обеспечивает:

  • мониторинг состояния процессоров ВМ;
  • мониторинг доступности ВМ по сети Ethernet;
  • мониторинг загруженности ВМ;
  • обработку сигналов от датчиков, имеющихся в ВМ (температуры процессоров, состояния вентиляторов и т. п.);
  • инициацию отключения питания ВМ при возникновении аварийных ситуаций;
  • мониторинг доступности сетевых файловых систем;
  • оповещение администратора системы о выявленных неисправностях по электронной почте;
  • сбор статистики и графическую визуализацию активности в сетях Ethernet.
  • Подсистема коллективного доступа

    Подсистема коллективного доступа к ресурсам суперкомпьютера СУППЗ обеспечивает:

  • прием заданий пользователей и постановку этих заданий в очередь;
  • динамическое распределение ресурсов суперкомпьютера по запросам пользователей, при этом единицей ресурсов является один процессор СК «MBC-6000IM»;
  • выполнение заданий пользователей в пакетном режиме;
  • выполнение на СК «MBC-6000IM» задач пользователей как содержащих, так и не содержащих функции MPI;
  • сбор статистики о выполнении заданий пользователей и формирование соответствующих отчётов для анализа характеристик пользовательских задач;
  • графический интерфейс мониторинга производительности СК «MBC-6000IM» и управления заданиями.
  • Взаимодействие удаленных пользователей с СК осуществляется по протоколу ssh к ВМ mvs6k.jscc.ru . Авторизация пользователей осуществляется с помощью базы LDAP, расположенной на управляющей станции. База LDAP синхронизируется с основной базой пользователей МСЦ РАН.
  • Коммуникационная среда Myrinet поддерживается в современных реализациях интерфейса параллельного программирования MPI. В качестве программных средств коммуникационной среды Myrinet используется коммуникационная система GM. В её состав входят:

    • драйвер;
    • служебные программы;
    • тестовые программы;
    • библиотека функций и заголовочный файл GM API;
    • демонстрационные программы.
    • Подсистема параллельного доступа к файлам.

    Программное обеспечение параллельной файловой подсистемы обеспечивает:

  • параллельный доступ из ВМ к общему файловому пространству;
  • надежное хранение и резервирование пользовательских данных;
  • удобное управление и мониторинг файловой системы и пользовательскими квотами на дисковое пространство;
  • В состав программного обеспечения узлов ввода-вывода (ПОУВВ) входят:

    • операционная система Linux RedHat;
    • параллельная файловая система;
    • программные средства обеспечения удаленного доступа к файлам (NFS, SMB).

    Hewlett Packard SuperDome (64 CPU) является симметричным мультипроцессором с производительностью 141,3 GFlops и предназначен для решения задач, требующих больших вычислительных ресурсов и большого объёма общей памяти. Система построена на процессорах PA-8600 550 МГц, работающих c 64 Гбайт общей памяти.

    МВС 1000М (768 CPU) предназначен для решения сложных научно-технических задач. Его пиковая производительность 1 TFlops. Суперкомпьютер состоит из 6 базовых блоков, каждый из которых включает в себя 64 двухпроцессорных модуля. Модули собраны на базе процессоров Alpha21264A, 667 MHz и объединены высокоскоростной сетью Myrinet (2 Gbit/s), используемой только для межпроцессорных коммуникаций во время параллельных вычислений.

    Hewlett Packard V2250 (16 CPU) является симметричным мультипроцессором с пиковой производительностью 16 GFlops.

    Кластер INTEL XEON («KRYPTON») предназначен для исследования новых технологий в области GRID и параллельных файловых систем. Суммарная пиковая производительность Кластера из 16-ти процессоров составляет 76,8 GFlops.

    Кластер AMD Athlon MP («KAPPA») предназначен для обучения студентов технологиям высокопроизводительных вычислений. Суммарная пиковая производительность Кластера из 16 процессоров составляет 49 GFlops.

    МСЦ 2000 (32 CPU). Специализированный кластер для разработки параллельного программного обеспечения, состоящий из 16 двухпроцессорных узлов на основе процессора Intel Pentium III 550 MHz. Узлы соединены сдвоенным Fast Ethernet через два коммутатора.

    Система визуализации на рабочих станциях J2240 и J5000 фирмы Hewlett Packard с мощными графическими акселераторами трехмерной графики.

    В августе 2012 года центр объявил конкурс на разработку суперкомпьютера с производительностью 10 ТФлопс диапазона.