Автотранспорт FPGA, программируемая логика Интернет вещей Искусственный Интеллект Серверы и ЦОД

Адаптивные вычисления и искусственный интеллект для автономных транспортных средств. Часть 1

188 0 0

Технологии, применяемые в создании беспилотных транспортных средств, продолжают развиваться. Несмотря на некоторые камни преткновения, автомобильные гиганты и лидеры бигтех-индустрии значительно продвигаются в достижении всё новых и новых степеней автономизации. Сегодня мы наблюдаем за появлением уникальных системных архитектур и программных инструментов для поддержки этого ресурсоёмкого направления. То, как искусственный интеллект наделяется контролем над всем транспортным средством, взаимодействуя при этом с периферийными устройствами и обмениваясь данными с облачными хранилищами, уже выведено на высочайший уровень. При этом границы между разработкой аппаратного и программного обеспечения становятся всё тоньше. Эта статья содержит обзор ключевых достижений по внедрению современных технологий помощи водителю. В первой части рассмотрено, какие факторы поспособствовали ускорению прогресса в этой области.

Вонг Билл, Дженко Питер, Браун Джек

На пути к полной автономности

Для случайного наблюдателя, не знакомого с нюансами и сложностью ИИ и автомобильных технологий, «сумеречная зона» между сегодняшней реализацией технологии ADAS (интеллектуальная система помощи водителю) уровня 2 SAE и завтрашним полностью автономным транспортным средством может показаться озадачивающей. Тем не менее промышленность в целом и инженеры-конструкторы во всём мире действительно заняты тем, чтобы довести технологию до конца. В последние годы автомобильная индустрия начала выходить за рамки решений ADAS первого поколения и переходит к тому, что обычно называют L2+ или условной автономией. Эти автомобили выходят за рамки базового адаптивного круиз-контроля, удержания полосы движения и автоматического экстренного торможения, чтобы начать процесс выхода из зависимости от водителя (хотя и очень незначительной).

Возможности объёмного восприятия, обеспечиваемые зрением, основанном на глубоком обучении, позволяют транспортным средствам справляться с ситуациями, когда полосы расходятся или сливаются, и безопасно менять полосу движения. Системы на кристаллах (SoC) и FPGA, ориентированные на ИИ, обрабатывают глубокие нейронные сети (DNN), а также данные датчиков камер снаружи автомобиля и внутри.

Во внутреннем пространстве автомобиля быстро развиваются такие функции, как мониторинг пассажиров и визуализация салона. Фактически автомобили с интеллектуальной системой помощи из кабины и расширенной визуализацией окружающей среды уже превосходят сегодняшние предложения L2 ADAS по производительности, функциональности и безопасности дорожного движения (рис. 1). Это всё ещё далеко от самых высоких уровней автономности SAE J3016 (табл. 1), но представляет собой значительный скачок в возможностях по сравнению с тем, что было несколькими годами ранее.
Рис. 1. Схема интеграции ADAS с датчиками и процессорами, обеспечивающими условную автономию (L2+) в автомобиле
Таблица 1. Сводка уровней автономии автомобиля по SAE
Помимо наделения салона возможностями искусственного интеллекта, алгоритмы на основе глубокого обучения используют обработку изображений для выполнения сложных функций в городских условиях и суровых погодных условиях. Набор передовых технологий DNN позволяет автомобилю воспринимать широкий спектр объектов и дорожных ситуаций.

Все эти и другие интеллектуальные возможности, конечно же, основаны на различных алгоритмах, которые представлены во всех формах и размерах в приложениях ADAS. Непрерывный рендеринг, классификация и прогнозирование изменений во всём, что окружает автомобиль, требуют алгоритмов для выполнения основных задач регрессионного анализа, распознавания образов, кластерного анализа и принятия решений (табл. 2).
Таблица 2. Наиболее распространённые категории алгоритмов, используемых в автомобильных приложениях
Процессоры автомобильного уровня для высокоавтоматизированных транспортных средств должны запускать различные алгоритмы нейронных сетей на нескольких вычислительных машинах. Эти процессоры также должны поддерживать быстро меняющиеся алгоритмы ИИ и обеспечивать гибкость конвейеров данных для уменьшения задержки ИИ.

Устранение препятствий в обработке данных

Важно отметить, что самые ранние разработки ADAS имели дискретную архитектуру со скромной вычислительной мощностью и ограниченным набором датчиков. В результате большинство систем L2 ADAS обеспечивают непоследовательное обнаружение транспортных средств и ограниченную способность оставаться в полосе движения на извилистых или холмистых дорогах. Даже адаптивные системы круиз-контроля не полностью оправдали ожидания потребителей. Ограничения более ранних конструкций ADAS приводили к частым отключениям системы, требующим от водителя резкого взятия на себя управления. В современных конструкциях всё чаще используются радары и LiDAR (хотя они всё ещё находятся в зачаточном состоянии), оба из которых генерируют огромные объёмы данных, что ещё больше увеличивает требования к обработке сенсорных модулей. Неизбежно, что высокоинтегрированные чипы будут играть важную роль в обработке сложных сенсорных данных, поступающих от различных датчиков, таких как датчики изображения, радары, лидары, ультразвуковые и другие. Они должны обрабатывать все эти данные с гораздо большей скоростью и эффективностью обработки, чем большинство современных готовых чипов искусственного интеллекта.

По сути, это создало возрастающую проблему, требующую более быстрых и эффективных архитектур для обработки показаний не одного, а многих типов датчиков. Рассмотрим в качестве примера подсистему обнаружения объектов, состоящую только из камер, которая должна выполнять до шести различных алгоритмов. Затем появляются четыре различных алгоритма для перехода от 2D-изображения к 3D-изображению. Добавьте к этому 12 камер, создающих полный 360-градусный полусферический обзор автомобиля и его окружения, и вы легко увидите проблемы, стоящие перед отраслью, в одной лишь обработке данных.

От путаницы к слиянию

Хотя ADAS и полноценные беспилотные проекты завтрашнего дня имеют параллели, у них, как правило, разные пути разработки и группы разработчиков, занятых проектированием необходимых наборов датчиков, процессорами и проектными архитектурами.

Возьмём случай нескольких сенсорных модальностей – интеллектуального зрения, радара и лидара – и слияния датчиков, что позволит совершить гигантский скачок от помощи вождения Уровня 2 к высокоавтоматизированному Уровню 4. Настоящие беспилотные проекты подобным образом могут иметь 30 (и, вероятно, больше) датчиков во всех модальностях для восприятия окружающей среды. Более глубокое погружение в функции обработки и архитектуры, необходимые для по-настоящему автономных транспортных средств, даёт представление о том, чем сейчас заняты разработчики: агрегированием данных, их предварительной обработкой и способами эффективного обмена ими (DAPD), а также ускорением вычислений (рис. 2).
Рис. 2. Возможность агрегации, предварительной обработки и распределения данных (DAPD) улучшает обработку ИИ за счёт объединения данных датчиков и подготовки их к обработке модулями производительности
Показательным примером являются чипы XA Zynq UltraScale+ MPSoC 7EV и 11EG от Xilinx. Эти 16-нм чипы, сертифицированные ASIL-C, предназначены для приложений L2+ ADAS и L4 AV, объединяют программируемую логику, а также 64-битный четырёхъядерный процессор Arm Cortex-A53 и двухъядерную систему обработки на базе Arm Cortex-R5. 504 000 логических ячеек и 1728 сегментов DSP в 7EV и более 650 000 логических ячеек и 2928 сегментов DSP в 11 EV поднимают программируемость на новый уровень в области автомобильных приложений. Другие автомобильные устройства в портфеле XA (2EG, 3EG, 4EV и 5EV) предлагают полный набор опций, отвечающих любым потребностям современных автомобильных приложений.

Устройство XA 7EV содержит блок видеокодека для кодирования и декодирования H.264/H.265, а устройство XA 11EG – 32 приёмопередатчика 12,5 Гбит/с и четыре блока PCIe Gen3x16 (рис. 3). Благодаря этим высокоинтегрированным чипам автомобильные разработчики начали всерьёз рассматривать возможность контролируемого самостоятельно передвижения транспортного средства на шоссе от въезда до съезда с него.
Рис. 3. Платформа XA Zynq UltraScale+ MPSoC 7EV предлагает различные механизмы обработки для поддержки таких функций, как объединение датчиков, ускорение вычислений ИИ и функциональная безопасность
Помимо обеспечения простого движения, появились и такие заметные возможности, как смена полосы движения, разделение полосы движения и планирование пути. Здесь задача алгоритмов ИИ состоит в том, чтобы помочь транспортным средствам понять, где находятся другие транспортные средства, прочитать разметку полосы движения, обнаружить пешеходов и велосипедистов, различать типы световых индикаторов и их цвета, распознавать дорожные знаки и понимать сложные сцены.

GPU, SoC и FPGA

В мире технологий автоматизированного вождения отчётливо проявляются две современные тенденции проектирования. Прежде всего, это рост вычислительной мощности для поддержки более сложных алгоритмов ИИ. Неудивительно, что современные разработчики автомобильных систем полагаются на высокоинтегрированные микросхемы для управления сложными программными приложениями, обработки данных в реальном времени и обеспечения функциональной безопасности.

На более высоком уровне есть мощные SoC и MPSoC, которые включают ядра графического процессора и предлагают колоссальные показатели терафлопс. Эти графические процессоры интегрированы с большими моделями ИИ для большей производительности, меньшей задержки и более высокого разрешения. Кроме того, существуют тесно интегрированные специализированные микросхемы ASIC для обработки всех данных с датчиков транспортных средств и удовлетворения уникальных требований к обработке. На нижнем уровне есть чипы ИИ, которые запускают крошечные модели машинного обучения, но они часто содержат компромиссы в отношении точности.

Где-то между ними находятся FPGA, которые выполняют вывод без пакетной обработки, чтобы обеспечить низкую детерминированную задержку и более высокую пропускную способность. С другой стороны, мощные графические процессоры, выполняющие выводы на основе глубокого обучения, требуют, чтобы пакеты параллельных данных массово проходили через множественные данные с одной инструкцией (SIMD) для выполнения большего количества вычислений и меньшего количества выборок. Это, однако, делает регистровые файлы большими. Кроме того, в отличие от ASIC, которые укреплены в наборе инструкций, FPGA позволяют разработчикам применять проприетарные наборы инструкций на платформе с эффективными вычислениями и даже позволяют инженерам настраивать их так, чтобы пробовать новые вещи.

Также стоит упомянуть, что ПЛИС, как и графические процессоры, использовались для ускорения ИИ в средах центров обработки данных. Таким образом, для проектов L2+ ADAS и AV, их DSP и параллельные архитектуры делают FPGA хорошо подходящими для ускорения нейронных сетей.

Применение нейронных процессоров будет иметь решающее значение в повышении качества изображения для систем, особенно в условиях низкой освещённости. Здесь ПЛИС с поддержкой ИИ могут выполнять множество сложных задач по захвату и обработке видео без замены аппаратного обеспечения камеры.

Возьмём, к примеру, готовую к производству функцию автоматизированной парковки Baidu (AVP), которая является частью бортовой вычислительной платформы компании для автономного вождения. Система AVP, входящая в состав вычислительного блока Baidu Apollo Computing Unit (ACU), использует Xilinx XA Zynq UltraScale+ MPSoC для объединения датчиков и обработки ИИ для пяти камер и 12 ультразвуковых радаров. Baidu утверждает, что её проект Apollo – первая в мире открытая платформа для беспилотного транспорта.

Вторая заметная тенденция связана с объединением модульного оборудования с открытой программной архитектурой просто потому, что традиционные модели вычислений с фиксированной комбинацией оборудования и программного обеспечения подходят к концу своего существования. Таким образом, в то время как SoC встраивают в чип алгоритмы ИИ для таких задач, как обработка изображений, FPGA позволяют OEM-производителям автомобилей и поставщикам высшего уровня обновлять и настраивать требования к обработке для новых алгоритмов ИИ.

Решения для камер на основе FPGA являются тому примером: они позволяют разработчикам добавлять новые алгоритмы искусственного интеллекта спустя месяцы и годы после установки камеры в транспортном средстве. Это показывает, как открытая платформа может облегчить индивидуальную интеграцию новых программных алгоритмов с течением времени, что является разумным способом обеспечения будущего этих решений.

Переломный момент

Учитывая крайне ориентированный на потребителя характер автомобильной промышленности, очевидно, что внедрение технологий ради технологий не приведёт к мгновенному созданию полностью автономного транспортного средства. Тем не менее более пристальный взгляд на путь развития этого направления показывает, что автомобильная промышленность в целом чётко взяла курс на создание и внедрение беспилотных решений.

На системном уровне также становится очевидным, что процессоры общего назначения, графические процессоры, готовые микросхемы искусственного интеллекта и тому подобное – это не то, что нужно в высокоспециализированном мире беспилотных проектов. Некоторые производители микросхем уже предоставляют специализированные решения для ADAS и беспилотных проектов с полным стеком аппаратного и программного обеспечения, а также комплектами для разработки программного обеспечения.

Хотя вышеназванные и другие недавние достижения в области проектирования автономных транспортных средств можно рассматривать как побочные, они тем не менее значительны. На самом деле, возможно, мы находимся в переломном моменте, который мы снова и снова наблюдали в других технологических областях: не сегодня так завтра ситуация в отрасли может резко и существенно измениться.

Центры обработки данных

В то время как современные автомобили по-прежнему требуют, чтобы водитель контролировал подавляющее большинство процессов вождения, усовершенствованные системы помощи водителю (ADAS) с каждым новым модельным рядом расширяют свои возможности. Пройдёт некоторое время, прежде чем большинство автомобилей на дорогах будут представлять собой автономные транспортные средства (AV) SAE уровня 5. Однако технологии, необходимые для этого, быстро развиваются. Искусственный интеллект (ИИ) и машинное обучение (МО) уже направляют транспортные средства по их маршрутам на автомобильных испытательных полигонах, действуя в опасных условиях с возрастающей точностью и сохраняя «воспоминания» для извлечения уроков из каждой поездки. Но со всем волнением, которое крутится вокруг бортовых беспилотных технологий, вы должны задаться вопросом… что всё это значит для центров обработки данных?

Цифровая пробка

Объём данных, генерируемых несколькими камерами, радарами, модулями системы LiDAR, системами мониторинга в салоне, GPS и другими типами датчиков, может быть огромным даже для самой лучшей электронной системы автомобиля. Объём данных, генерируемых сегодняшними тестовыми автомобилями ADAS, исчисляется триллионами байтов в день. Несмотря на то что обработка на борту является одним из самых больших препятствий, которые необходимо преодолеть, центрам обработки данных также предстоит тяжёлая работа, чтобы подготовиться к тому, что грядёт.

Транспортные средства ADAS часто называют центрами обработки данных на колёсах с множеством различных сенсорных подсистем. Данные, собранные транспортными средствами ADAS, будут передаваться другим транспортным средствам ADAS посредством облачной сетевой среды. Огромные объёмы данных будут собираться для анализа и регулярно обновляться через облако. Данные также будут передаваться для универсального использования всей инфраструктурой транспортного средства ко всему (V2X), в то время как другие данные будут совместно использоваться непосредственно между транспортными средствами в пределах досягаемости с использованием связи между транспортным средством и транспортным средством (V2V).

Было подсчитано, что в течение обычного дня вождения по городу будет собираться до 4 ТБ данных, а для роботов-такси – в три раза больше, поскольку они работают непрерывно. Надлежащее управление данными имеет важное значение для создания безопасной дорожной сети, управляемой ADAS, что потребует новой категории центров обработки данных, предназначенных для надёжной обработки и передачи огромных объёмов потоковых данных. Большая часть обработки, необходимой для выполнения наиболее важных ответов системы в реальном времени, будет выполняться непосредственно в центральных модулях обработки транспортного средства, но огромные массивы данных по-прежнему будут передаваться за пределы транспортного средства. Но куда? В последние годы различные коммуникационные гиганты объединились с автопроизводителями, чтобы ответить на этот вопрос. На данный момент идея состоит в том, чтобы переосмыслить текущую сетевую топологию развёртывания центров обработки данных в глобальном масштабе, чтобы лучше поддерживать IoT в целом и, в частности, подключённые автомобили, поскольку они будут одними из крупнейших генераторов данных.

Переосмысление дата-центров

Современные центры обработки данных изначально разрабатывались для удовлетворения потребностей потребителей и предприятий. Поддержка миллионов 2-тонных колесных IoT-устройств не входила в планы. Конечно, они могут обеспечить доступ к облаку и Интернету, но не в соответствии с требованиями к передаче данных, которые прогнозируются для транспортных средств, оснащённых ADAS, и будущих AV. Добавьте ожидаемый взрыв специализированных AV, доставляющих всё, от посылок до пиццы, и станет ясно, насколько велика потребность. По сути, это означает создание совершенно новой категории центров обработки данных для беспилотных транспортных средств и V2X в целом.

Обработка данных и сетевые потребности автомобиля, оснащённого ADAS, огромны и уникальны, и требуют доступа к данным с малой задержкой и широкой полосой пропускания для минимизации времени передачи данных даже с тоннами бортовой или «периферийной» обработки. AV потребуется чрезвычайно быстрый доступ к данным для параллельных потоков видео, радара 4D-изображения, лидара, ультразвука и обработки слияния датчиков. В бортовой компьютерной системе автомобиля данные будут использоваться в сочетании с алгоритмами искусственного интеллекта и машинного обучения для принятия решений за доли секунды – возможно, быстрее и с большей точностью, чем водитель-человек, – чтобы обеспечить правильный и безопасный отклик системы.

Скорость обработки данных может быть не столь критична для резервного копирования данных и обновления программного обеспечения, но потребуется доступ к нескольким протоколам (таким как NFS, SMB, FTP и HTTP). Из-за больших объёмов обрабатываемых и хранимых данных соединения центра обработки данных (DCI) должны быть более надёжными, чем обычно требуется для приложений «общего назначения».

Беспилотники также должны адаптироваться к постоянно меняющимся условиям. С помощью ИИ они будут преобразовывать данные датчиков в данные управления транспортным средством, но им также потребуется информация об окружающей среде. Это неотъемлемая часть всего переосмысления топологии центра обработки данных. Адекватное покрытие может быть частично обеспечено за счёт более гибких вычислительных центров AV и IoT, а не крупных традиционных центров обработки данных. Эти небольшие, сильно распределённые центры обработки данных могут эффективно справляться с влиянием расстояния до центра обработки данных, приводящим обычно к задержкам, в дополнение к снижению вычислительной нагрузки на все узлы. С точки зрения форм-фактора традиционные громоздкие конструкции (вспомните большие металлические ящики на крышах, вдоль межштатных автомагистралей и тому подобное) не будут играть большой роли в этих распределённых центрах обработки данных, если вообще будут.

Стандарт ANSI/TIA-942, созданный в 2005 году Американским национальным институтом стандартов (ANSI) и Ассоциацией телекоммуникационных компаний (TIA), содержит рекомендации по размещению, архитектуре, безопасности и телекоммуникационным требованиям новых центров обработки данных. Центры обработки данных, поддерживающие транспортные средства завтрашнего дня, будут предъявлять повышенные требования по многим из тех же параметров. Они должны поддерживать архитектуры высокой плотности, обеспечивающие повышение скорости обработки и производительности, снижение нагрева и низкие требования к свободному пространству.

Ускорение динамических рабочих нагрузок

Независимо от того, насколько изменилась топология мировых центров обработки данных, сегодняшние группы центров обработки данных уже борются с растущей нагрузкой и потребностью в большей скорости из-за систем IoT и ADAS, которые передают данные в облако.

Линейка ускорителей Xilinx Alveo – одно из известных решений для ускорения центров обработки данных (рис. 4). Являясь первым в отрасли комплексным сетевым адаптером SmartNIC, предлагающим совмещение функций сети, хранения и ускорения вычислений на единой платформе, Alveo удовлетворяет постоянно меняющиеся потребности масштабирования облачных центров обработки данных для поддержки интенсивных рабочих нагрузок, создаваемых беспилотниками, таких как предварительное ускорение и разгрузка вычислений ядра ЦП. Эти модульные ускорители уже используются в качестве вычислительных механизмов обработки данных в традиционных центрах обработки данных, обеспечивая значительное увеличение скорости обработки данных по сравнению с традиционными ЦП, особенно для машинного обучения, транскодирования видео, поиска в базе данных и аналитических функций.
Рис. 4. Ускорители Xilinx Alveo Data Center представляют собой компактные сетевые адаптеры SmartNIC, которые ускоряют динамические рабочие нагрузки, адаптируясь к постоянной оптимизации алгоритмов быстрее, чем акселераторы с фиксированными функциями
Унифицированная программная платформа Xilinx Vitis также упрощает сквозное ускорение динамических рабочих нагрузок благодаря интегрированной среде разработки для программирования, профилирования и отладки ускоренных приложений с мощными предметно-ориентированными библиотеками.

В отличие от вычислительных машин с фиксированными функциями, модульные ускорители легко адаптируются к меняющимся условиям эксплуатации и требованиям, как это обычно бывает с транспортными средствами ADAS. Они позволяют операторам центров обработки данных вносить программные и операционные изменения, невозможные для других механизмов обработки интегральных схем (ИС), включая ASIC и даже графические процессоры.

Ускорители Alveo основаны на 16-нм кремниевой ИС Zynq UltraScale+ компании Xilinx. Alveo U25, Alveo U50, Alveo U200, Alveo U250 и Alveo U280 представляют собой интегрированные программируемые ПЛИС, совместимые со всеми стандартами Ethernet и сертифицированные в соответствии с требованиями к оборудованию FCC, UL, CE и RoHS. Поставляемые с инструментом разработки приложений, ускорители обеспечивают прямой доступ к облаку, чтобы упростить разработку новых алгоритмов ADAS, значительно увеличить пропускную способность машинного обучения в реальном времени и ускорить обработку данных камер автомобиля.

Большой портфель решений Alveo также отвечает растущим потребностям в ускорении в современных центрах обработки данных. Например, Alveo U25 повышает скорость работы облачных приложений благодаря возможностям обхода ядра с малой задержкой. Данные высоко синхронизируются с помощью встроенного тактового генератора Stratum 3. Alveo U25 оснащён 6 Гб оперативной памяти DDR4 и имеет размеры всего 6,60 × 2,54 дюйма (167,65 × 64,4 мм). Когда скорость сети важна, но энергопотребление вызывает беспокойство, Alveo U50, совместимый с PCIe Gen4 и оснащённый сетевым интерфейсом 100-GbE с 8 Гб памяти HBM2, пропускной способностью 316 Гб/с HBM2 и 872 000 таблиц поиска (LUT) может потреблять не более 75 Вт.

Когда требуется больше внутренней памяти, подойдут Alveo U200 и U250, которые могут похвастаться пропускной способностью памяти в 77 ГБ/с и ёмкостью 64 ГБ для обработки больших объёмов данных, генерируемых камерами автомобиля ADAS, LiDAR и радарными системами. Alveo U200 имеет пропускную способность внутренней памяти SRAM 31 ТБ/с с 892 000 LUT, в то время как плата-ускоритель Alveo U250 имеет внутреннюю пропускную способность SRAM 38 ТБ/с с 1 341 000 LUT для большого количества оцифрованных изображений камеры.

Для разработчиков центров обработки данных, которым нужны высокоскоростные решения под ресурсоёмкие приложения, Alveo U280 предлагает 8 ГБ памяти HBM2 с пропускной способностью 460 ГБ/с, ёмкость 32 ГБ с пропускной способностью 38 ГБ/с и два PCIe Gen4 x8 интерфейса для расширенных межсерверных соединений.

Готовимся к очередному скачку

По мере развития беспилотных технологий и перехода к более высоким уровням автономного вождения по стандарту SAE всё больше центров обработки данных будет проектироваться для удовлетворения самых разных потребностей. Будучи разработанными для поддержки достижений в области машинного обучения, автономных транспортных средств и Интернета вещей в целом, они будут обладать ёмкостью хранения и вычислительной мощностью, превосходящими сегодняшние требования.

Большая часть этой мощности и пропускной способности будет сосредоточена в вычислительных ресурсах сети, развёрнутой повсюду, от густонаселённых районов до окраин, для получения и обработки данных от миллионов подключённых автомобилей. Это – в сочетании с полным набором интеллектуальных сенсорных систем и сквозным адаптивным ускорением вычислений – может заставить нас перейти к беспилотному будущему раньше, чем мы ожидали.

188 0 0