Современная электроника №6/2025
СОВРЕМЕННЫЕ ТЕХНОЛОГИИ 45 WWW.CTA.RU СОВРЕМЕННАЯ ЭЛЕКТРОНИКА • № 6 / 2025 Инновационный подход демонстри- рует Cerebras с технологией Wafer- Scale процессоров WSE-3, показывая возможности кардинального переос- мысления архитектуры для сверхмас- штабных вычислительных задач. Однако современный рынок ИИ-процессоров значительно шире представленных в статье решений. В табл. 7 приведён рейтинг ведущих мировых компаний с учётом, прежде всего, производительности их процес- соров (таблица подготовлена с помо- щью ИИ Claude-4 Sonet, 2025). В заключение можно сказать, что даже наш поверхностный обзор про- дукции ведущих производителей позволяет отметить несколько клю- чевых тенденций, определяющих направление развития аппаратно- го обеспечения для искусственного интеллекта. Прежде всего, это повы- шение энергоэффективности при росте производительности. Например, такие процессоры, как Huawei Ascend 910C (TDP 400–600 Вт) и Apple M4 Max (TDP 40–60 Вт), демон- стрируют тенденцию к снижению энергопотребления при высокой про- изводительности. При этом Ascend 910C обеспечивает 640 Тфлопс (FP16), конкурируя с NVIDIA H100 при суще- ственно меньшем энергопотреблении. Cerebras WSE-3, несмотря на высокий TDP (~15 кВт), показывает исключи- тельную эффективность для сверх- масштабных задач благодаря произ- водительности 125 ПФлопс (FP16) [78]. Другое быстроразвивающееся направ- ление связано со специализацией обо- рудования под конкретные задачи ИИ. Различные процессоры оптимизи- руются под специфические примене- ния. В то время как NVIDIA B200 оста- ётся универсальным решением для обучения и инференса, Google TPU v5 специально оптимизирован для эко- системы TensorFlow. Идеально подхо- дит для обучения моделей с триллио- нами параметров процессор Cerebras WSE-3. Китайский Huawei Ascend 910C поддерживает экосистему MindSpore для таких моделей, как Pangu. Процес- соры Intel Gaudi 3 ориентированы на снижение стоимости в корпоративном сегменте [79]. Также заметно увеличивается интерес к открытым архитектурам после публикации информации о специализированных чипах RISC-V (SiFive P670, DeepSeek). Особенно заметным было появление на рын- ке ИИ-моделей DeepSeek R-1, кото- рые позволили значительно снизить затраты на разработку и производ- ство. Характерный пример показы- вает Google, интегрирующий RISC-V ядра (SiFive X280) в TPU v5, обеспечи- вая таким образом гибкость и уни- версальность системы программи- рования [80]. В ближайшие 2–3 года ожидается дальнейшая диверсификация рынка ИИ-процессоров. Конкуренция меж- ду ведущими производителями будет стимулировать инновации в обла- сти энергоэффективности, специали- зации архитектур и масштабируемо- сти решений. Литература 1. AI Index Report 2025. URL: https://hai. stanford.edu/ai-index/2025-ai-index- report. 2. NVIDIA Tensor Cores. URL: https:// www.nvidia.com/en-us/data-center/ tensor-cores/. 3. CXL 3.0. URL: https:// computeexpresslink.org/wp-content/ uploads/2025/02/CXL_Q1-2025- Webinar-Presentation_FINAL.pdf. 4. CEREBRAS SYSTEMS, INC. URL: https://f.hubspotusercontent30.net/ hubfs/8968533/Cerebras-Systems- Overview.pdf. 5. Market cap. URL: https:// companiesmarketcap.com/nvidia/ marketcap/. 6. NVIDIA. URL: https://abrv.in/jukp. 7. NVIDIA Blackwell Platform Arrives to Power a New Era of Computing. URL: https://nvidianews.nvidia.com/ news/nvidia-blackwell-platform- arrives-to-power-a-new-era-of- computing. 8. NVIDIA Blackwell Architecture and B200/B100 Accelerators Announced. URL: https://www.anandtech.com/ show/21310/nvidia-blackwell- architecture-and-b200b100- accelerators-announced-going-bigger- with-smaller-data. 9. NVIDIA Hopper Architecture In-Depth. URL: https://developer.nvidia.com/ Таблица 7. Сравнительные характеристики современных ИИ-процессоров Процессор Тех. процесс Производитель- ность (FP16) Память (HBM3/SRAM) TDP Применение Экосистема ПО Cerebras WSE-3 5 нм 125 Пфлопс 44 Гбайт SRAM, до 1,2 Пбайт внешней ~15 кВт Обучение сверхмасштабных LLM Cerebras Software Platform NVIDIA B200 4 нм ~10 Пфлопс* 192 Гбайт HBM3e 1000 Вт Универсальное (обучение и инференс) CUDA, TensorRT Intel Gaudi 3 5 нм ~2,5 Пфлопс 128 Гбайт HBM2e 600 Вт Обучение и инференс LLM Intel AI Suite, PyTorch AMD MI325X 5 нм 1,3 Пфлопс 256 Гбайт HBM3e 750 Вт Обучение и инференс в HPC и облаке ROCm, PyTorch, TensorFlow Google TPU v5 4 нм ~1 Пфлопс** HBM3 (объём не раскрыт) Н/Д Инференс и обучение в TensorFlow TensorFlow, JAX Huawei Ascend 910C 7 нм 640 Тфлопс 128 Гбайт HBM3 400–600 Вт Обучение и инференс LLM в дата- центрах MindSpore, CANN Graphcore IPU-POD256 7 нм ~350 Тфлопс 460 Гбайт In-Processor Memory ~15 кВт Исследовательские задачи, обучение Poplar SDK, PyTorch Qualcomm AI 100 Ultra 5 нм ~75 Тфлопс LPDDR5/DDR5 75–150 Вт Edge Computing, локальный инференс Qualcomm AI SDK Apple M4 Max 3 нм ~40 Тфлопс 128 Гбайт унифицированной памяти 40–60 Вт Локальный инференс на устройствах Core ML, Metal DeepSeek (RISC-V) 7 нм/5 нм ~16 Тфлопс*** HBM3/DDR5 (зависит от SoC) 50–150 Вт Локальный инференс LLM Собственная экосистема RISC-V Примечания к таблице: *NVIDIA B200: производительность в FP8 (20 Пфлопс) пересчитана в FP16 (~10 Пфлопс, так как FP8 обычно вдвое эффективнее) [14]. **Google TPU v5: точные данные не раскрыты, оценка ~1 Пфлопс основана на двукратном превосходстве над TPU v4 (~500 ТФ FP16). ***DeepSeek (RISC-V): оценка ~16 Тфлопс FP16 основана на 32 TOPS INT8 для Sophgo SG2380 (1 ТФ FP16 ≈ 2 TOPS INT8).
RkJQdWJsaXNoZXIy MTQ4NjUy