Суперкомпьютеры становятся быстрее и доступнее

В статье предлагается описание современных подходов к достижению высокой энергоэффективности и вычислительной мощности высокопроизводительных аппаратных платформ. Сделан краткий обзор гетерогенных вычислительных архитектур на примере высокопроизводительных вычислительных комплексов компании Eurotech.

Жирков Алексей, Высоцкий Виктор

113
В ЗАКЛАДКИ

Поиск компромиссов при создании суперкомпьютеров

Прикладные суперкомпьютерные вычисления играют сегодня всё более значимую и возрастающую роль в силу ряда объективных причин. Технологические прорывы последних лет, такие как многоядерные процессорные архитектуры, массивно-параллельные программно-аппаратные модули, быстрые коммутационные сети с высокими пропускными способностями и низкими задержками, твердотельные устройства хранения информации, сделали возможным проведение реалистичных виртуальных экспериментов вместо натурных стендовых испытаний. В 2009 году только один-единственный суперкомпьютер Jaguar архитектуры CRAY XT5 (рис. 1) достиг уровня производительности в один петафлопс, а сегодня, 5 лет спустя, уже 50 суперкомпьютеров, представленных в рейтинге лучших вычислительных систем, достигли такого же уровня.

Напомним, что петафлопс соответствует уровню производительности в 1015 операций с плавающей запятой в секунду. Эти технологические прорывы были поддержаны разработкой нового программного обеспечения и адаптацией уже существующих программных комплексов с использованием современных подходов и парадигм (моделей) параллельного программирования. В на­стоящее время можно смело констатировать, что относительно низкая себестоимость и широкая доступность вычислительных ресурсов уже изменили подходы во многих сферах человеческой деятельности, включая науку, промышленность, бизнес и финансы.
Выбор суперкомпьютера сегодня – это поиск компромиссного решения между такими факторами, как пиковая производительность, совокупная стоимость эксплуатации, минимизация капитальных и операционных расходов, удобство использования для конечных пользователей. С одной стороны, высокая производительность, как правило, достигается за счёт использования всё большего числа процессорных элементов. С другой стороны, с ростом их числа и результирующей производительности суперкомпьютера увеличивается и общее энергопотребление. На текущий момент среднее значение энергопотребления – 1 мегаватт электроэнергии на каждый петафлопс производительности.
Проблеме роста энергопотребления сопутствует задача охлаждения горячих компонентов суперкомпьютера. В действительности суммарное тепловыделение отдельного суперкомпьютера может достигать десятков МВт, и в таком случае поиск решения проблемы отвода тепла может стать совсем нетривиальной задачей. При пиковых нагрузках тепловыделение может достигать несколько кВт на 1 м2 занимаемой площади. Очевидно, что от архитектуры и эффективности системы охлаждения будет зависеть надёжность, живучесть, а также оптимальный рабочий режим эксплуатации суперкомпьютера. На практике расходы на его охлаждение могут достигать 60% от совокупной стоимости эксплуатации. Не удивительно, что вопросы технико-экономической эффективности сегодня наиболее актуальны в разработке и проектировании передовых суперкомпьютерных архитектур. Только широкое использование инновационных и энергоэффективных решений может гарантировать высокие показатели отдачи от инвестиций в суперкомпьютерный проект.
В качестве общепринятой интегральной характеристики для оценки энергоэффективности используется коэффициент эффективности использования электроэнергии (PUE – Power Usage Effectiveness). Коэффициент PUE рассчитывается как отношение суммарной потреблённой центром обработки данных (ЦОД) электроэнергии к части, израсходованной ИТ-оборудованием. Вычислительные системы с низким значением PUE можно размещать в ЦОД без необходимости в капитальной модернизации имеющейся инфраструктуры и коммуникаций. Возможность использовать уже существующие системы энергоснабжения и искусственного климата позволяет существенно сэкономить средства в процессе размещения и монтажа суперкомпьютера и даже, как вариант, позволяет разместить больший объём вычислительных ресурсов за те же самые деньги на той же рабочей площади. В идеальном случае коэффициент PUE для суперкомпьютера должен стремиться к единице.

Гибридные технологии суперкомпьютеров

В последние годы в области суперкомпьютерных технологий всё большее распространение получают так называемые гибридные архитектуры (рис. 2).
Такой подход связан не столько со стремлением достигнуть экзафлопсного уровня пиковой производительности (103 петафлопс), сколько с сугубо экономическими аспектами энергоэффективности и долгосрочной эксплуатации современных суперкомпьютеров. Отличительной особенностью гибридной архитектуры является интеграция в базовом вычислительном узле нескольких типов вычислительных элементов. В настоящий момент в качестве процессорных элементов используются многоядерные процессоры общего назначения вместе с массивно-параллельными сопроцессорами или графическими ускорителями. Выбор ускорителей/сопроцессоров напрямую связан с их высокой вычислительной производительностью тера­флопсного уровня и высокой энерго­эф­фек­тивностью (в метрике – гигафлопс/ ватт). В частности, типичная энергоэффективность современных ускорителей/сопроцессоров в среднем равна
4 Гфлопс/Вт, тогда как этот же показатель для основных процессоров варьируется около 1 Гфлопс/Вт. Помимо высокой энергоэффективности немаловажным преимуществом ускорителей/сопроцессоров являются их компактные физические размеры. Среди основных процессоров общего назначения наиболее распространёнными являются серверные решения от компании Intel, а в качестве ускорителей широко используются решения от компаний NVIDIA (GPGPU), Intel (Xeon Phi).
Несмотря на то что сопроцессоры и ускорители демонстрируют близкие показатели производительности и энергоэффективности, каждое из решений предполагает использование уникальной и узкоспециализированной модели программирования. К примеру, базовым ядром Intel Xeon Phi является модификация процессора Pentium с набором инструкций ISA x86. Эта особенность Xeon Phi позволяет относительно легко переносить существующие программные коды на данную платформу, что значительно упрощает весь цикл разработки и оптимизации программного обеспечения. В случае же решений от компании NVIDIA предполагается, что критические участки программы (алгоритма) будут запрограммированы или преобразованы с использованием технологии CUDA. Данная технология позволяет программистам реализовать на специальном упрощённом диалекте языка программирования Си алгоритмы, которые могут выполняться на графических процессорах NVIDIA, и включать специальные функции в текст программы на Си. В целом важно подчеркнуть, что не существует универсального решения и выбор того или иного ускорителя/сопроцессора диктуется прежде всего специфическими особенностями решаемых вычислительных задач.
Гибридная архитектура вычислительного комплекса позволяет достигать рекордных пиковых производительностей, даже в сравнении с традиционными решениями, основанными на использовании высокопроизводительных узкоспециализированных процессоров или интегральных схем (ASIC), таких как архитектуры IBM POWER, Fujitsu SPARC64 или Anton HTIS. К примеру, в текущей редакции TOP-10 мощнейших петафлопсных суперкомпьютеров планеты первое и второе места занимают гибридные решения Tianhe-2 (Intel Xeon E5-2692, Intel Xeon Phi 31S1P) и Titan (AMD Opteron 6274, NVIDIA K20x), и лишь третье место занимает система Sequoia архитектуры IBM BlueGene/Q (IBM PowerPC A2), представленная на рис. 3.
При сопоставимой пиковой производительности система Titan в сравнении с Sequoia потребляет лишь на 0,3 МВт (3,6%) больше электроэнергии и при этом содержит в 5 раз меньше базовых (16-ядерных) вычислительных узлов.

Офисный суперкомпьютер

Одним из лидеров в области построения энергоэффективных высокопроизводительных систем является компания Eurotech. Например, в 2013 году компания с суперкомпьютером Eurora возглавляла список в рейтинге Green500, который отражает самые энергоэффективные суперкомпьютерные системы мира.
Сейчас основной особенностью исполнения самых современных суперкомпьютеров является применение жидкостного охлаждения для всех компонентов системы. Данная технология помогает существенно экономить энергию и применять гораздо более плотную компоновку узлов, что благоприятно сказывается на общей производительности.
Благодаря применению непосредственного горячего жидкостного охлаждения компонентов системы достигается рекордное значение PUE в 1,06, то есть фактически 94% всей электроэнергии уходит на сами вычисления.
И именно эту технологию компания Eurotech перенесла в офисный суперкомпьютер Aurora G-Station (рис. 4).

Компании удалось применить все свои самые современные наработки при создании этого чуда. Суперкомпьютер в вашем офисе без создания инфраструктуры может работать уже сегодня. Занимая место трёх стандартных системных блоков под столом, он может дать вам производительность в 26 Тфлопс, а жидкостное охлаждение обеспечит бесшумную работу. Уже сейчас компания ПРОСОФТ предлагает своим партнёрам тестовый удалённый доступ к данной системе, чтобы клиенты могли оценить все преимущества HPC-решения (HPC – High-Performance Computing) от компании Eurotech.

Новое эффективное решение от Eurotech

В конце прошлого года на SuperCom­puting 2014 компания Eurotech анонсировала очередное революционное HPC-решение – базовый вычислительный модуль Aurora Hive (рис. 5).

Несмотря на компактные физические размеры модуля 13×10,5×32,5 см, Aurora Hive может быть укомплектован как четырьмя сопроцессорами Intel Xeon Phi 7120x, так и четырьмя ускорителями NVIDIA Tesla K40. При этом пиковая производительность конфигурации с четырьмя ускорителями NVIDIA K40 может достигать 5,86 Тфлопс с соответствующим показателем энергоэффективности в 5 Гфлопс/Вт, при использовании ускорителя NVIDIA K80 этот параметр будет ещё выше. Без преувеличения можно сказать, что уникальными особенностями Aurora Hive являются его рекордная вычислительная плотность, компактность и энергоэффективность.
Огромная производительность сопроцессоров/ускорителей позволила применить для построения вычислительного модуля архитектуру ARM64 с быстродействием, далёким от предельного, но с меньшим энергопотреблением и более высокой надёжностью. Действительно, поми-мо конфигурации, где в качестве основного процессора используется Intel Xeon E3-12xx v3, также возможен вариант и с X-Gene 64-bit ARM от компании Applied Micro. Компактные габариты и высокая производительность позволяют упаковать до 128 вычислительных блоков в одну стойку 42U (рис. 6) и таким образом достичь рекордной вычислительной плотности в 750 Тфлопс на 2 м2 занимаемой площади.
Важно подчеркнуть, что для такой конфигурации показатель коэффициента эффективности использования электроэнергии будет составлять 1,05. Другими словами, в такой конфигурации 95% потребляемой энергии будет расходоваться на вычисления, и лишь 5% будет рассеиваться (паразитные потери). При этом в максимальной комплектации пиковое потребление электричества не будет превышать 166 кВт.
Все эти достижения стали возможны благодаря использованию инновационной системы охлаждения с так называемой горячей водой – температура носителя до 55˚C – и с функцией свободного охлаждения (Free-Cooling). Принцип работы заключается в непосредственном использовании разницы температур наружного воздуха и теплоносителя для охлаждения рабочего помещения. Режим свободного охлаждения позволяет практически полностью избавиться от работы компрессора, являющегося главным потребителем электроэнергии системы кондиционирования, и тем самым существенно повысить её экономичность.
Также благодаря жидкостному охлаждению стало возможно использовать режим процессоров Turbo Boost в качестве основного режима работы. Turbo Boost – это технология компании Intel, позволяющая автоматически увеличивать тактовую частоту ядра процессора до величины выше номинальной, если при этом не превышаются ограничения мощности, температуры и тока в составе расчётной мощности (TDP – Thermal Design Power). Это приводит к увеличению производительности однопоточных и многопоточных приложений. Фактически это технология «саморазгона» процессора, дающая дополнительную, можно сказать, бесплатную прибавку по производительности в 10–20%.

Заключение

Сегодня в суперкомпьютерном мире наблюдается новая волна, вызванная как успехами в области микропроцессорных технологий, так и появлением нового круга задач, выходящих за рамки традиционных научно-исследовательских и инженерных вопросов.
Ещё несколько лет назад суперкомпьютеры были доступны в основном учёным из засекреченных ядерных центров и криптоаналитикам спецслужб. Однако развитие аппаратных и программных средств позволило освоить промышленный выпуск таких машин, а число их пользователей в настоящее время достигает десятков тысяч. Фактически в наши дни весь мир переживает подлинный бум суперкомпьютерных проектов, результатами которых активно пользуются не только такие традиционные потребители высоких технологий, как аэрокосмическая и автомобильная отрасли промышленности, но и другие области современных научных исследований и инженерных расчётов.
Архитектура современных суперкомпьютеров достигла такого уровня эффективности, что из одних и тех же «кирпичей» вы можете построить кластер национального масштаба или использовать базовый элемент для реализации своих собственных идей.
Решения на основе архитектуры Aurora позволяют не только снизить капитальные затраты при реализации комплексных HPC-центров, но и зна­чительно сократить дальнейшие эксплуатационные расходы, время выполнения и стоимость проведения ис­следовательских работ. А значит, можно получить большее с меньшими затратами! ●

Авторы – сотрудники
фирмы ПРОСОФТ
Телефон: (495) 234-0636
E-mail: info@prosoft.ru



ПОДПИСАТЬСЯ НА НОВОСТИ

Будьте всегда в курсе самых свежих новостей
и узнавайте первыми о содержании нового номера

Подписка на новости

РЕКОМЕНДУЕМ