Современная электроника №4/2025
СОВРЕМЕННЫЕ ТЕХНОЛОГИИ 30 WWW.CTA.RU СОВРЕМЕННАЯ ЭЛЕКТРОНИКА • № 4 / 2025 ные векторы (эмбеддинги). Не вдава- ясь в подробности тензорной алгебры, можно отметить, что, например, наша токенизированная «cat» превратится в многомерный вектор [0,2; –0,5; 0,8; ...]. Основной этап обработки реализу- ется в аппаратном модуле вычисле- ния, где происходит обработка запро- са с использованием нейронной сети модели искусственного интеллекта. В результате модельных расчётов в декодер токенов поступает инфор- мация, позволяющая генерировать выходные токены. Сгенерированный ответ модели про- ходит дополнительную обработку, необ- ходимую для улучшения качества и безопасности в блоке «конечной обра- ботки». На этом этапе осуществляются следующие технические операции: фор- матирование и структурирование отве- та; проверка согласованности и логич- ности; контроль правил стилистики и грамматики; оформление ответа в соот- ветствии с требуемым форматом. Дополнительный контроль содер- жимого ответа в плане обеспечения безопасности и соответствия этиче- ским нормам реализуется в модуле безопасности. Вывод ответа на запрос клиента осуществляется на финальном этапе работы в форме, преобразованной в формат, понятный клиентскому при- ложению. Для реализации этих слож- ных процессов ИИ требует мощной аппаратной базы, о которой пойдёт речь далее. Понимание архитектуры и принци- пов работы такой системы необходи- мо для эффективного проектирования, разработки и использования совре- менных интеллектуальных систем на основе больших языковых моделей. Структурная схема аппаратной и программной части современного ИИ показана на рис. 4, сгенерированном AI Claude 3.7. Типичная аппаратная конфигура- ция современного ИИ (LLM) включа- ет серверную часть, инфраструктуру и вспомогательное оборудование. Каж- дая из многочисленных фирм, занима- ющихся разработками ИИ, использует свои варианты компоновки аппара- турной части. Поэтому в этом описа- нии мы ограничимся только общими хорошо известными схемами. В современных больших языковых моделях используются графические процессоры (GPU), предназначенные для параллельной обработки с исполь- зованием матричных вычислений. В качестве примера можно приве- сти два наиболее мощных на сегод- няшний день графических процессо- ра NVIDIA H100 и Н200. Модель Н100 с ядрами Tensor чет- вёртого поколения, созданная по тех- нологии TSMC 4N, имеет 80 ГБ памя- ти HBM3 с пропускной способностью 3,35 Тбайт/c. Более новая версия H200 отличается увеличенным объёмом памяти HBM3e (до 141 ГБ), повышен- ной пропускной способностью памяти (до 4,8 Тбайт/с), а также более высокой энергоэффективностью. Обе модели имеют одинаковый конструктив «8U Rackmount». Кроме уникальных техни- ческих характеристик H100/H200 отли- чаются и крайне высокой стоимостью. Конструкция NVIDIA H100 предусма- тривает совместную работу несколь- ких GPU, объединённых в стандарт- ные серверные кейсы. Так, новая модель сервера NVIDIA DGX H100/H200 содержит восемь H100 или Н200 гра- фических процессоров (рис. 5). Этот сервер имеет габаритные размеры 897×356×482 мм и весит 131 кг. Управление операционной систе- мой и общими ресурсами серверов осуществляется с помощью централь- ных процессоров Intel Xeon. В серве- ре NVIDIA DGX H100 используют- ся два 56-ядерных процессора Intel Xeon Platinum 8480C, 3,8 ГГц (Sapphire Rapids). Сервер DGX H200 оснащён дву- мя центральными процессорами Intel Xeon Platinum 8480CL+ (56 ядер). Параллельная работа восьми GPU позволяет достичь производитель- ности до 32 петафлопс в вычислени- ях с пониженной точностью (FP8) и до 8 петафлопс в вычислениях с пла- вающей точкой (FP16). Объединён- ная высокоскоростная процессор- ная память 640 Гбайт и оперативная память 2 Тбайт DDR5 позволяют рабо- тать независимо от центров (DC Data Center) для решения небольших задач. Межсоединение GPU NVIDIA NVLink четвёртого поколения с пропускной способностью 900 Гбайт/с и сетевые интерфейсы NVIDIA ConnectX-7 с под- держкой 400 Гбит/с Ethernet/InfiniBand позволяют поддерживать сверхвысо- кие скорости обмена данными. Сервер имеет систему жидкостно- го охлаждения для GPU и воздушное охлаждение для остальных компо- нентов. Питается сервер от трёхфаз- ной сети 200–240 В, а также оснащён системами резервного питания (UPS). Для создания инфраструктуры под крупные модели искусственного интеллекта используются кластеры из сотен систем DGX, объединённых в единую вычислительную среду, такую, например, как DGX SuperPOD. Кластеры представляют собой отдельные поме- щения, в которых размещены стойки с серверами. В стандартную сервер- ную стойку (42U) можно установить до 5 серверов NVIDIA DGX H100/H200. Кла- стерные помещения оснащены общей системой питания, охлаждения и дру- гой периферией. Более подробное опи- Рис. 4. Структурная схема аппаратной и программной частей современного ИИ
RkJQdWJsaXNoZXIy MTQ4NjUy