Архитектура Rubin вводит принцип распределённого вывода (distributed inference), в котором две разные типы процессоров работают совместно:
- GPU Rubin — отвечают за высокопроизводительную генерацию ответов,
- CPX (Context Processing eXtended) — специализированные ускорители, оптимизированные исключительно для операций внимания (attention) и управления длинным контекстом.
Такой разделение позволяет значительно повысить эффективность: вместо того чтобы нагружать один и тот же GPU и на обработку контекста, и на генерацию, система распределяет нагрузку по специализированным компонентам. Это снижает задержки, увеличивает пропускную способность и делает работу с длинными текстами (например, полными книгами, кодовыми базами размером в сотни тысяч строк или часами видео) практически мгновенной.
Первые системы на базе Rubin будут использовать GDDR7 с объёмом до 128 ГБ на чип, что обеспечивает высокую пропускную способность при более низкой стоимости по сравнению с HBM3e/HBM4. Хотя HBM остаётся стандартом для топовых моделей, GDDR7 в CPX-узлах позволяет масштабировать системы для задач, где важна ёмкость памяти, а не максимальная скорость доступа.
По данным Nvidia, новая архитектура обеспечивает более чем трёхкратное ускорение операций внимания по сравнению с предыдущим поколением GB200 NVL72, что напрямую влияет на скорость обработки документов длиной 100K+ токенов — например, аналитика законодательных актов, обработка научных статей, генерация кода по целым репозиториям или анализ длительных видеозаписей с транскрипцией.
Ключевой платформой станет NVL144 Rubin, кластер из 144 GPU Rubin и 144 CPX-блоков, обеспечивающий до 4 эксафлопс производительности в FP8/FP4-точности и до 80 ТБ быстрой памяти на одну стойку — в 6–7 раз больше, чем у предшественника NVL72. Такие системы предназначены для центров обработки данных крупнейших облачных провайдеров, исследовательских лабораторий и компаний, работающих с гигантскими языковыми моделями (LLM).
Особое внимание уделяется энергоэффективности: благодаря оптимизации архитектуры и использованию новых методов сжатия внимания, Rubin-системы достигают рекордного соотношения производительности на ватт — что делает их экономически выгодными для 24/7 эксплуатации.
Nvidia заявила, что уже заключены партнёрские соглашения с Amazon Web Services, Microsoft Azure, Google Cloud и ведущими китайскими ИИ-компаниями на тестирование систем Rubin в коммерческих сценариях — от автоматизированной юридической аналитики до AI-ассистентов для научных исследований.
Коммерческие поставки первого поколения систем Rubin начнутся во второй половине 2026 года. Предварительные оценки показывают, что внедрение таких решений может увеличить доходы облачных провайдеров на $5 млрд на каждые $100 млн инвестиций в инфраструктуру — благодаря резкому снижению стоимости обработки одного токена и возможности предлагать новые услуги (например, «анализ всей истории клиента» или «генерация кода по всему проекту»).
Источник: https://industry-hunter.com/nvidia-predstavila-pervyj-v-mire-graficeskij-processor-dla-sverhdlinnogo...Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!