Современная электроника №6/2025

СОВРЕМЕННЫЕ ТЕХНОЛОГИИ 35 WWW.CTA.RU СОВРЕМЕННАЯ ЭЛЕКТРОНИКА • № 6 / 2025 доступная площадь (814 мм²) базово- го кристалла. Поэтому в ускорителях B100/B200 использовано два кристал- ла, позволивших удвоить вычисли- тельную мощность. Интерфейс NV-HBI с пропускной способностью 10 Тбайт/с обеспечива- ет полную когерентность кэша, еди- ное адресное пространство памяти и прозрачность для программного обе- спечения. Упрощённая схема архитектуры УГП Blackwell B200 AI B200 Accelerator пока- зана на рис. 2. Технология Tensor Core NVIDIA пред- назначена для ускорения вычислений с использованием смешанной точно- сти, что особенно важно в задачах искусственного интеллекта. По суще- ству, Tensor Cores представляют собой специализированные вычислитель- ные ядра в ускорителе B200, предназна- ченные специально для работы с ИИ. Особенность Tensor Cores заключа- ется в том, что они могут выполнять сразу много параллельных операций, например, одновременно умножать целые матрицы за один такт. Кроме того, эти ядра используются для опе- раций с низкой точностью (FP16, FP8, FP4), обучения нейронных сетей, а так- же для инференса AI-моделей. По срав- нению с предыдущими версиями УГП ядра в Blackwell Ultra Tensor Cores обе- спечивают ускорение слоёв внимания (Attention-Layer) в два раза больше (для формата FP8) и в полтора раза боль- ше для операций с плавающей запя- той (FLOPS) [2]. Кроме ядер Tensor Cores, ответствен- ных за сложные параллельные вычис- ления, в структуре Blackwell B200 суще- ствуют ядра CUDA Cores, выполняющие простые последовательные матема- тические операции. Кроме обычной арифметики (сложение, умножение, деление) CUDA Cores используются для тривиальных графических вычисле- ний, физической симуляции, крип- тографии, а также для любых других вычислительных задач, которые мож- но решать по шагам. Высокоскоростная буферная L2 кэш- память (L2 Cache Memory) предназна- чена для ускорения доступа к часто используемым данным, что снижает задержки при обращении к основной памяти. Кроме того, она может быть использована как когерентный кэш между двумя кристаллами. Кэш L2 в ускорителях графических процессоров NVIDIA является важным компонентом, повышающим произво- дительность, особенно в задачах глу- бокого обучения. В новых ускорителях B200 NVIDIA используется High Bandwidth Memory 3E Stacks (HBM3e), сверхбыстрая основ- ная память. Эта память в конфигу- рации 8 стеков по 24 Гбайт каждый (всего 192 Гбайт) имеет пропускную способность 8 Тбайт/с (по 1 Тбайт/с на стек). В качестве интерфейса исполь- зуется 1024-битная шина данных на каждый стек. В ускорителях ГП В200 применяется технология ускорения работы моделей NVIDIA Transformer Engine TE 2.0 второ- го поколения, которая позволяет авто- матически выбирать оптимальный формат. Важно то, что новая версия поддерживает форматы низкой точно- сти, такие как FP6 и FP4, что даёт воз- можность в ряде случаев значительно повышать эффективность обработки данных. Эта технология предостав- ляет инструменты для повышения производительности глубокого обу- чения GLM/LLM. Например, в её ком- плекте есть библиотека с открытым исходным кодом NVIDIA TensorRT- LLM, позволяющая создавать и опти- мизировать LLM, используя простой API на Python. Основные технические характери- стики новой модели B200 в сравнении с предыдущей версией H100 приведе- ны в табл. 1. Из других важных особенностей Blackwell B200 следует отметить систе- му безопасности Trusted Execution Environment (TEE-I/O), которая обе- спечивает защиту ИИ-моделей и интеллектуальной собственности, поддерживая конфиденциальную вычислительную среду как на самом ускорителе ГП, так и на хостах [14]. Ускоритель графического процес- сора B200 является в настоящее вре- мя флагманской моделью, на основе которой NVIDIA производит серверные платы, законченные серверы, кластер- ные серверные стойки. УГП Blackwell B200 выпускаются в форм-факторе SXM6, который рассчи- тан на более высокие значения мощ- ности и пропускной способности. Этот модуль SXM6 с памятью 192 Гбайт HBM3e и высокой скоростью обмена через NVLink ориентирован на класси- ческие серверные платформы. Данный стандарт NVIDIA SXM6 под- держивает как воздушное, так и жид- костное охлаждение. NVIDIA B300 Blackwell Ultra – это следующая модель ускорителей графи- ческих процессоров, которую NVIDIA анонсировала в марте 2025 года, и ожидается эта модель к выпуску во второй половине 2025 года [15]. Официального детального техни- ческого описания для B300 от NVIDIA пока нет. На сайте NVIDIA есть только общая информация о продуктах B300, DGX B300 и GB300, но без точных тех- нических спецификаций. Поэтому ниже приведена только краткая информация, доступная на сегодняшний день на других сайтах партнёров NVIDIA. Новый УГП B300 предназначен для инференса сложных задач, когда ИИ должен сначала «подумать», про анализировать несколько вариантов решения, а потом выбрать лучший. Этот ускоритель ГП B300 изготовлен по той же технологии TSMC 4NP, что и рассмотренный выше B200. Однако Таблица 1. Основные технические характеристики B200 и H100 Характеристика NVIDIA B200 NVIDIA H100 Архитектура Blackwell Hopper Год выпуска 2025 2022 Техпроцесс TSMC 4NP (enhanced 4N) TSMC 4N Количество транзисторов 208 млрд 80 млрд Конфигурация Двухкристальная (Dual-Die) Однокристальная Форм-фактор SXM6 SXM5 Память B200 192 Гбайт HBM3e 80 Гбайт HBM3 Пропускная способность памяти До 8 Тбайт/с 3,35 Тбайт/с Производительность FP32 80 Тфлопс 67 Тфлопс Тензорная производительность FP32 2,2 Пфлопс 500 Тфлопс Тензорная производительность FP16/BF16 4,5 Пфлопс 1 Пфлопс Поддержка FP8 Да (10 Пфлопс) Да (2 Пфлопс) Поддержка FP4 Да (20 Пфлопс) Нет Максимальное энергопотребление 1000 Вт 700 Вт Поколение NVLink 5-е поколение 4-е поколение Transformer Engine 2-е поколение 1-е поколение