Решения для обработки данных в экстремальных условиях

Потолок скорости

Пятнадцать лет назад Intel и другие производители процессоров поняли, что гонка за мегагерцами не бесконечна. Примерно на значении 4 ГГц процессоры столкнулись с пределом – рост нагрева стал снижать производительность.
Для решения этой проблемы были созданы многоядерные процессоры, в основном использующие несколько небольших процессорных ядер, которые могли бы в совокупности превзойти одно большое ядро. Графические процессоры (GPU – Graphics Processing Unit) вскоре последовали за процессорами общего назначения: начиная с 2010 года, компания NVIDIA стала оценивать производительность с точки зрения Гфлопс на ватт (FLOPS – FLoating-point Operations Per Second, количество операций с плавающей точкой в секунду).
В опубликованной в 2016 году компанией BERTEN статье «Сравнение производительности GPU и FPGA» (“GPU vs FPGA Performance Comparison”) приведены примеры парадоксов производительности. Авторы провели тесты производительности на операциях с плавающей запятой с одиночной точностью с шестью вариантами процессоров. Два из трёх GPU легко побеждают FPGA (Field-Programmable Gate Array – программируемая логическая интегральная схема). Однако при сравнении по Гфлопс на ватт в общем случае предпочтительнее FPGA. В то же время при учёте цены (стоимость за Гфлопс) GPU значительно дешевле большинства FPGA. В 2016 году FPGA были наиболее энергоэффективными, а GPU обеспечивали наилучшую производительность за те же деньги. Это важные критерии для любой организации, реализующей систему обработки сигналов в рамках ограниченного бюджета.
Неудивительно, что поставщики компонентов и решений продолжают искать все возможные пути для снижения энергопотребления. Если в 2010 году NVIDIA начала оценивать производительность с точки зрения Гфлопс на ватт, то позже она решила анализировать показатели уже в конкретных приложениях с учётом рабочих нагрузок и системных архитектур. Например, NVIDIA предоставляет два набора спецификаций для своего графического процессора Tesla V100, в зависимости от того, использует ли хост-система подключение шины NVLink или PCI Express. С PCIe процессор V100 максимально потребляет мощность в 250 Вт, но эта мощность обеспечивает 7 Тфлопс производительности в тестах с двойной точностью или 112 Тфлопс при Deep Learning (глубоком обучении). Напротив, с шиной NVLink максимальная потребляемая мощность V100 равна 300 Вт, но NVLink обеспечивает более высокую пропускную способность и меньшую задержку и, следовательно, имеет бо-
лее высокую эффективность. Сегодня серверные архитектуры Intel, распространённые в приложениях обработки сигналов, допускают между процессором и графическим процессором только интерфейс PCI Express, поэтому данная модель и доминирует над более современными решениями. Тем не менее, независимо от специфики соотношение мощности/производительности остаётся ключевым фактором при выборе платформы GPGPU (General-Purpose Computing for Graphics Processing Units – графические процессоры общего назначения).

Зачем большие мощности для обработки?

Потребляемая мощность также предъявляет требования к размерам платформ. В полевых условиях, например при проведении боевых операций (рис. 1), всё чаще ключевым фактором становятся возможности средств управления, контроля, связи, сбора и компьютерной обработки, разведки и наблюдения (C4ISR – Command, Control, Communications, Computers, Intelligence, Surveillance and Reconnaissance), которые устанавливаются в транспортные средства, начиная от самолётов и кончая беспилотниками.
Рис. 1. Военный центр сбора и обработки информации

Рис. 1. Военный центр сбора и обработки информации

Требования к гибкости и мобильности становятся определяющими при полевых операциях, а крупногабаритные стационарные системы с электрогенераторами быстро уступают место малым форм-факторам (SFF – Small Form Factor), решениям с автономным питанием от батарей, которые можно разместить под сиденьем. Встроенные платформы становятся нормой, но они должны быть в состоянии обеспечить выполнение требований к производительности при анализе сигналов. Вместе с тем корпуса с меньшим размером сталкиваются с большими проблемами при рассеивании тепла компонентов из-за более высоких вычислительных нагрузок. Из-за отсутствия места под вентиляторы основными конструкциями, которые могут противостоять пыли, ударам и вибрациям в полевых условиях, становятся системы пассивного охлаждения.
Обычно при обработке сигналов на поле боя делается выбор: либо проведение анализа на месте с учётом ограничений полевых систем, либо отправка данных в более мощные централизованные системы, расположенные далеко от зоны действий, что создаёт задержки в обработке. Оба подхода активно развиваются по мере появления более современных сенсорных систем. Рассмотрим электрооптические и инфракрасные (EO/IR – Electro-Optic/Infrared) решения, такие как датчик изображения WXCAM MX-25D для систем целеуказания. MX-25D включает до девяти датчиков, обеспечивающих тепловое наведение, оптическое увеличение, HD-съёмку в условиях низкой освещённости и лазерную систему слежения. Объём данных, получаемых с этого устройства, является существенным, но не стоит забывать, что используются камеры с разрешением 720p и 1080p. Представьте себе загрузку данных с датчиков следующего поколения, поддерживающих 4K-визуализацию или 360-градусные системы панорамной съёмки для виртуальной реальности, которые могут включать в себя более десятка камер. В зависимости от приложения и ситуации несколько таких сенсорных кластеров могут быть объединены в общий пул данных для анализа, что многократно увеличивает нагрузку на вычислительную систему.

Почему GPGPU – лучшее решение?

Выбираемые процессоры должны справляться с большим потоком данных, но тип и количество применяемых процессоров могут различаться по производительности и влиять на жизнеспособность решения. В целом процессоры для таких задач делятся на три группы.

Центральные процессоры (ЦП), также известные как процессоры общего назначения (GPP – General Purpose Processor). В серверных системах долгое время доминировало семейство процессоров Intel^® Xeon^®. Эти процессоры преуспевают в решении широкого круга проблемно-ориентированных или произвольных задач.
Графические процессоры общего назначения (GPGPU – General-Purpose Computing for Graphics Processing Units), появившиеся в 1970-х годах для поддержки компьютерных игр. В начале 2000-х NVIDIA, а затем ATI разработали методы для запуска небольших программ на GPU для вычислений отдельных пикселей. Это быстро превратилось в параллельную обработку потока на множестве логических ядер в графическом процессоре. В 2007 году компания NVIDIA представила свою архитектуру программирования CUDA, чтобы дать разработчикам простой и эффективный доступ к вычислениям общего назначения на базе GPU (GPGPU), которые обеспечили бы в несколько раз более высокую производительность для многих распараллеливаемых функций по сравнению с тем, что могли предоставить процессоры общего назначения.
Программируемая логическая интегральная схема (FPGA), предназначенная для конфигурирования клиентами или интеграторами (то есть программируется пользователем интегральной схемы). Многие логические блоки в FPGA могут выполнять сложные комбинированные функции, позволяя им эффективно решать практически любую задачу. FPGA могут быть чрезвычайно эффективными для конкретных вычислительных задач, включая параллельные операции, но они по-прежнему относительно сложны в программировании, а разработка приложений на их базе имеет более долгие сроки, чем на базе процессоров общего назначения или GPGPU.

Все три типа процессоров широко используются в ответственных приложениях, но для обработки и анализа сигналов в реальном времени решения на GPGPU предлагают наилучшее соотношение цены и возможностей.
К преимуществам относятся:

высокая пропускная способность видеопамяти, что делает скорость обработки сложных задач близкой к скорости работы основного процессора;
сравнительно высокая производительность вычислений с плавающей запятой;
многоядерная архитектура, в которой большинство чипов является вычислительными устройствами, а не кэш-памятью, что дополнительно способствует параллельной обработке данных;
относительно простое программирование через языки высокого уровня (CUDA, C, C ++, Python и т.д.);
поддержка OpenACC и OpenCL для реализации быстрой обработки циклических алгоритмов для повышения производительности;
более высокая вычислительная мощность по сравнению с процессорами общего назначения.

Таким образом, архитектура GPGPU подходит для приложений, которые предназначены для массовой параллельной обработки больших объёмов данных и/или интенсивных математических вычислений (рис. 2), в частности, с проведением нескольких вычислений, основанных на однократном обращении к памяти. Высокие вычислительные нагрузки с обработкой на множестве модулей требуют, чтобы задержки доступа к памяти были минимизированы, это можно сделать за счёт ускоренного вычисления без необходимости активного кэширования данных. Согласно NVIDIA, архитектурные преимущества GPGPU могут обеспечить от 10- до 100-кратного роста производительности по сравнению с процессорами общего назначения в таких приложениях, как компьютерное зрение, расшифровка паролей и имитационное моделирование.
Разумеется, эти преимущества сопряжены с проблемами, и их следует учитывать при рассмотрении решений для анализа информации в ответственных приложениях.
Принимая GPGPU в качестве наиболее эффективного решения, доступного сегодня для анализа сигналов, как с точки зрения производительности, так и потребления мощности, мы рассмотрим три особенно перспективные области применения GPGPU в военных приложениях: обработка данных с радара, гидролокатора и обработка изображений.

Примеры применений продуктов ADLINK

Радиолокационные системы

Радиолокатор с синтезированной апертурой (SAR – Synthetic Aperture Radar), радар с фазированной решёткой и гибридные радиолокационные системы широко распространены как в гражданской сфере, так и при сборе военной информации. Они применяются в системах противовоздушной обороны, противоракетных системах, системах предупреждения столкновения самолётов, системах наблюдения за морской поверхностью, системах альтиметрии и управления полётом, а также системах обнаружения целей для управляемых ракет (рис. 3, 4).
Рис. 3. Дисплей радара

Использование GPGPU в данной сфере для ускорения вычислений насчитывает почти десять лет. Рассмотрим результаты тестов производительности, проведённых Питером Моррисом и его коллегами из научно-исследовательской организации обороны Индии (India’s Defense Research & Development Organization), которая сравнила систему на базе процессоров Intel^® Xeon^® с восемью графическими процессорами NVIDIA Quadro FX 3800 (выпущенными в 2009 году) с эквивалентной системой на PowerPC.
Рис. 4. Радарная установка

Система, управляемая GPGPU, в различных задачах работы с радаром (обработка данных, обнаружение движущихся целей, работа с доплеровскими системами и т.д.) оказалась производительнее в 16–82 раза.
Рассмотрим только один пример текущих разработок в военных радиолокационных приложениях: ВМС США недавно объявили о заключении контракта стоимостью 3 млн долларов на разработку обновлённого решения на базе GPGPU для радара боевого истребителя Lockheed Martin F-35 Lightning II. Модернизация добавит режим широкого поля обзора с высоким разрешением для существующего радара Northrup Grumman APG-81. В результате обновлений, которые должны пройти в два этапа в 2021 и 2023 годах, радиолокатор истребителя сможет захватить значительно большую площадь
поверхности земли, чем в существующих системах. Благодаря применению GPGPU система сможет обрабатывать большие объёмы данных, что повысит возможности в обнаружении и наведении на цели.
В ходе разработки вычислительных средств для военных применений был создан стандарт VPX (также известный как VITA 46, в рамках которого существует множество спецификаций), он представляет собой популярную технологию создания плат формата Eurocard, а также шасси и одноплатных серверов для компактных вычислительных платформ высокой плотности. Коммутационные платы/шасси стандарта VPX обеспечивают высокую пропускную способность данных, что позволяет выполнять одновременные операции с большими массивами данных. Компания ADLINK является одним из ключевых членов рабочей группы VPX International Trade Association (VITA), которая разрабатывает и продвигает спецификации VPX. Также ADLINK постоянно пополняет список VPX-изделий и их аналогов, предназначенных для ответственных приложений анализа сигналов.
Продукты ADLINK GPGPU позволяют реализовать высокотехнологичные радиолокационные системы с цифровой обработкой сигналов и возможностями машинного обучения, способные извлекать полезную информацию из массивов с очень высоким уровнем шума. Эти продукты включают:

VPX3010 (рис. 5) представляет собой одноплатный сервер, разработанный для защищённых корпусов размера 3U, имеет три варианта процессора: Intel® Xeon® D-1559 (12-ядерный, 45 Вт TDP), Intel^® Xeon^® D-1539 (8-ядерный, 35 Вт TDP) и Intel^® Pentium^® D1519 (4-ядерный, 25 Вт TDP). VPX3010 обеспечивает мощную вычислительную базу, к которой можно добавить решение на основе графического процессора, такое как VPX3G10 или XMC-G1050TI через интерфейс XMC.

VPX3G10-R/A (рис. 6) – плата 3U VPX GPGPU имеет двухканальную память GDDR5 и графический процессор NVIDIA. Оснащённая сотнями вычислительных ядер и совместимая с CUDA, данная VPX-видеокарта доступна в исполнениях с кондуктивным охлаждением (обозначается R) и с воздушным охлаждением (обозначается A).

cPCI-6940 (рис. 7) – по различным причинам, в том числе и для сохранения ранее закупленного оборудования, некоторые приложения могут лучше работать с CompactPCI, а не с VPX. Как и VPX3010, одноплатный сервер ADLINK cPCI-6940 с процессором Intel^® Xeon^® D-1500 и AMD Radeon™ E8860 GPU в форм-факторе 6U предлагает высокоэффективную основу для систем обработки информации с радаров.

Обработка информации с сонара

В области сонарных систем цифровая обработка сигналов может охватить анализ сигналов от буксируемых и неподвижных объектов, гидроакустических буёв, управляемых торпед и других систем. В качестве приложений для подобных систем можно рассмотреть торпеду MK-48, Poseidon P-8 и автономные подводные аппараты (AUV – Autonomous Underwater Vehicle). Как и в случае с радаром, обработка GPGPU может выполнять геркулесову задачу по разбору «соли и перца» намного быст-рее и эффективнее, чем вычисление только на ЦП общего назначения. Это было доказано Пласидо Сальваторе Баттиато (Placido Salvatore Battiato) из Университета Катании, когда он сравнивал изображения в реальном времени и ответные акустические сигналы на платформах Intel^® Core™ i7-4510U (2 ядра), NVIDIA GeForce 820M (96 ядер, начальный уровень на мо-мент тестирования) и NVIDIA GeForce GTX 480 (480 ядер, средний уровень на момент тестирования).
Не удивительно, что GTX 480 оказался на уровне своих соперников.
Широкий спектр продуктов GPGPU от ADLINK обеспечивает разработчиков сонаров несколькими вариантами устройств обработки, укладывающимися в концепцию SWaP-ограничений (Size, Weight, and Power Consump-tion – размеры, вес и потребляемая мощность).
К ним относятся:

VPX6000 (рис. 8). Когда приоритеты SWaP допускают большую свободу в выборе, форм-фактор 6U VPX обеспечивает максимальную производительность для приложений на базе GPGPU. VPX6000 от ADLINK использует до двух Intel^® Core™ i7-4700EQ (4-ядерный, 47 Вт TDP) и значительную мощность обработки при кондуктивном охлаждении. Однако, поскольку Core™ i7 поддерживает только интегрированную гра-фику Intel, для полной реализации решения GPGPU по-прежнему требуется сопутствующая графическая плата.

XMC Graphics Module (рис. 9). Стандарт XMC, также известный как Switched Mezzanine Card, представляет собой один из типов мезонинных PCI-карт (PMC – PCI Mezzanine Card), определённых стандартом VITA 42. XMC задаёт несколько форматов высокоскоростного последовательного соединения и предлагает простой способ добавления модульных, ультрасовременных элементов ввода-вывода на платформу без больших затрат на собственное решение. XMC ADLINK имеет встроенную память GDDR5 и графический процессор NVIDIA. Модули могут иметь порты подключения дисплея, а также кондуктивное или воздушное охлаждение.

Обработка изображения

Методы обработки изображений предназначены для улучшения изображения и/или извлечения полезной информации из него. Приложения обработки изображений охватывают анализ, наблюдение, разведку, идентификацию целей и географическую привязку в зонах, не доступных GPS. Например, министерство обороны США ежемесячно собирает десятки тысяч часов видеонаблюдений с воздуха из Афганистана и других регионов. Обработка и преобразование зернистого, низкокачественного видео, сделанного беспилотными летательными аппаратами или спутниками, в чистые видеопотоки, подходящие для анализа, особенно в режиме реального времени, представляет собой задачу огромной вычислительной сложности. Согласно NVIDIA и MotionDSP, графические процессоры могут обрабатывать такое видео в семь раз быстрее, чем процессоры общего назначения.
HPERC ADLINK (высокозащищённые автономные подсистемы, соответствующие спецификации MIL) и продукты GPGPU в сочетании с графической обработкой NVIDIA CUDA и API OpenGL предоставляют инженерам-разработчикам мощные COTS-продукты (Commercial off-the-Shelf – готовые коммерческие), на базе которых они могут проектировать новые поколения систем обработки изображений.
Примеры продуктов включают упомянутую плату VPX GPGPU, модуль XMC GPGPU и другие, в том числе:

HPERC (рис. 10) предназначен для работы при экстремальных температурах от –40 до + 85°C. HPERC соответствует спецификациям VITA-75 и весит чуть более 3 кг. Обе модели устройства оснащены процессором Intel^® Core™ i7 (двухъядерный i7-3517UE или четырёхъядерный i7-3612QUE) и рассеивают тепло через охлаждающую пластину, спецификация VITA 75.22. Соединители ввода-вывода соответствуют стандарту MIL-DTL-38999, а шины внутреннего расширения включают в себя MXM, PCI Express Mini Card (Gen2) и PCI/104 Express Type 2.

Рис. 10. Система обработки изображений HPERC

MXM Graphics Module – этот дополнительный модуль MXM позволяет пользователям применять GPGPU от NVIDIA с GDDR5, делая HPERC компактным и универсальным решением для быстрого анализа изображений, особенно в дистанционных и/или мобильных системах.

Заключение

Радар, сонар и обработка изображений могут быть одними из самых интересных сфер для приложений GPGPU в армии, но по факту их гораздо больше, особенно в гражданской сфере. Глубокое обучение, искусственный интеллект, моделирование и симуляция, криптография и другие приложения могут стать более эффективными за счёт применения GPGPU.
Объединив GPGPU с проверенным и надёжным вычислительным оборудованием от ADLINK, инженеры могут создавать надёжные решения для ответственных применений, способные эффективно обеспечить и быстро предоставить результаты анализа. Теперь у специалистов, принимающих решения, будет значительно больше данных для оценки, чем раньше. При этом они справятся с этой неординарной задачей, поскольку уже существуют технологии, превращающие огромные потоки информации в реальном времени в простые и понятные данные. ●

Статья подготовлена по материалам компании ADLINK

Перевод Сергея Солдатова
E-mail: ssacompany@mail.ru

Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!