Современная электроника №4/2025

СОВРЕМЕННЫЕ ТЕХНОЛОГИИ 31 WWW.CTA.RU СОВРЕМЕННАЯ ЭЛЕКТРОНИКА • № 4 / 2025 сание работы основных перечислен- ных выше блоков аппаратной части ИИ можно найти на сайте NVIDIA. Кроме рассмотренных серий NVIDIA H100 и H200 в серверах ИИ широко используются и другие GPU: ● NVIDIA A100 – предшественник H100, всё ещё широко применяется в серве- рах ИИ с 40/80 Гбайт памяти HBM2e; ● Habana Gaudi – приобретённые Intel чипы, оптимизированные для ИИ рабочей нагрузки; ● AMD Instinct MI250/MI300X – серия GPU от AMD, конкурирующая с NVIDIA. MI300X имеет 192 Гбайт HBM3 памяти; ● Google TPU (v4/v5e) – специализиро- ванные тензорные процессоры от Google, используемые в их облач- ных сервисах; ● NVIDIA L4/L40 – энергоэффективные GPU для инференса с меньшим энер- гопотреблением; ● Intel Gaudi2/Gaudi3 – ускорители ИИ от Intel, предназначенные для обу- чения и инференса; ● AWS Trainium/Inferentia – собствен- ные чипы Amazon для обучения и инференса; ● Biren Technology BR100 – высоко- производительный GPU для ИИ- вычислений с высокой пропускной способностью памяти; ● Moore Threads MTT S3000/S4000 – се- рия GPU для задач ИИ и научных вы- числений; ● Iluvatar CoreX – производительные GPU, используемые для обучения крупных языковых моделей; ● Cambrian/Cambricon MLU – серия ускорителей, специализированных для машинного обучения; ● Huawei Ascend 910/910B – мощные ускорители ИИ от Huawei, разрабо- танные специально для обучения и инференса крупных моделей. Эти GPU различаются по объёму и типу памяти (от 24 до 192 Гбайт, HBM2e, HBM3); энергопотреблению (от 150 до 700 Вт и выше); производи- тельности (TFLOPS для FP16/BF16/INT8); поддержке различных фреймворков и библиотек ИИ; стоимости. Часть перечисленных модулей может использоваться для целей инфе- ренса крупных моделей. Термин «инфе- ренс» (Inference) обозначает процесс использования уже обученной моде- ли искусственного интеллекта для получения результатов или предска- заний на основе новых входных дан- ных. В качестве примера можно приве- сти калькулятор. Сначала калькулятор программируется, то есть его обучают выполнять определённые математиче- ские операции. После этого калькуля- тор можно использовать для инферен- са, вводя в него определённые числа и совершая с ними математические дей- ствия, которым он был обучен. Во втором столбце схемыаппаратной части (рис. 4) подразумеваются компо- ненты, которые обеспечивают базо- вую инфраструктуру, необходимую для работы GPU-кластеров и взаимо- действия между ними. Среди наиболее значимых из элементов инфраструкту- ры можно отметить: сеть высокоско- ростных соединений между серверами (100–400 Гбайт); оперативная память сер- веров (1–2 Тбайт); СХД – системы хране- ния данных; системы электропитания. Третий блок на этой схеме описы- вает инструментарий, обеспечиваю- щий объединение серверов в класте- ры и создание необходимой для этого инфраструктуры. Работа ИИ как программно-аппарат- ного комплекса представляет собой сложный многоэтапный процесс, тре- бующий значительных вычислитель- ных ресурсов и специализированного программного обеспечения. Программное обеспечение совре- менных систем искусственного интел- лекта представляет собой сложную многоуровневую структуру, напо- минающую слоёный пирог. Каждый уровень этой структуры решает свои задачи и обеспечивает работу всей системы в целом. Для удобства пони- мания разделим эту структуру на три основных уровня: базовый (фунда- мент), средний (инструментальный) и верхний (пользовательский). Например, процесс обработки ваше- го запроса к модели ИИ проходит следующий путь. Верхний уровень принимает ваш запрос через API, про- веряет его и направляет в систему Средний уровень готовит модель к работе, распределяет вычисления меж- ду серверами. Базовый уровень выпол- няет тяжёлые математические вычис- ления на графических процессорах. Результат возвращается обратно через все уровни в виде сформулиро- ванного ответа. Базовый уровень обеспечивает самые основные функции, без кото- рых невозможна работа ИИ-системы. Прежде всего – это операционная система и драйверы. Большинство современных ИИ-систем работает на основе специально оптимизированных версий Linux (Ubuntu Server, CentOS). Эти операционные системы модифи- цированы для максимальной произ- водительности при работе с графиче- скими процессорами. Компания NVIDIA предлагает собственные оптимизиро- ванные версии операционных систем. Платформы для параллельных вычислений, такие как, например, CUDA от NVIDIA, представляют собой специальный программный интер- фейс, позволяющий использовать графические процессоры для негра- фических вычислений. Существуют также аналоги от других производи- телей: ROCm (для AMD), OneAPI (Intel), CANN (Huawei). Средний уровень содержит инстру- менты, с которыми работают раз- работчики ИИ-систем, такие как фреймворки глубокого обучения. Это программные платформы, упрощаю- щие создание и обучение нейронных сетей. Среди наиболее популярных можно выделить: PyTorch, который отличается гибкостью и удобством экспериментирования; TensorFlow, предлагающий как простой интер- фейс через Keras, так и возможности тонкой настройки; JAX, специализи- рующийся на научных вычислени- ях; MindSpore, оптимизированный для оборудования Huawei. Для эффективной работы с крупны- ми моделями, содержащими милли- арды параметров, созданы специаль- ные библиотеки: DeepSpeed (Microsoft), оптимизирующая использование памяти; Megatron-LM, которая предна- значена для распределённых вычис- лений; vLLM, ускоряющая инференс языковых моделей. Системы оркестрации коорди- нируют работу множества серве- ров, объединённых в единую систе- му: Kubernetes, использующийся как стандартное решение для управле- ния контейнерами; Slurm, традици- Рис. 5. Сервер NVIDIA DGX H100/H200