Новый амбициозный проект Илона Маска — суперкомпьютер xAI Colossus для искусственного интеллекта — впервые открыл свои двери для широкой публики. Журналисты сайта ServeTheHome получили доступ к объекту и подробно рассказали о кластере серверов Supermicro, сборка которого заняла 122 дня и уже активно функционирует на протяжении двух месяцев.
Серверы с графическими процессорами работают на платформе Nvidia HGX H100. Каждый сервер оснащён восемью ускорителями Nvidia H100 и универсальной системой жидкостного охлаждения Supermicro 4U с возможностью горячей замены компонентов для каждого графического процессора. Серверы установлены в стойках по восемь штук, что даёт 64 ускорителя на стойку. Внизу каждой стойки расположен дополнительный блок Supermicro 4U с резервной насосной системой и системой мониторинга стойки.
Стойки сгруппированы по восемь штук, что обеспечивает наличие 512 графических процессоров на массив. Каждый сервер имеет четыре дублирующих блока питания, коммутаторы Ethernet и коллекторы, обеспечивающие работу жидкостного охлаждения. Кластер Colossus состоит из более чем 1500 стоек или около 200 массивов. Ускорители на эти массивы были установлены всего за три недели, как рассказал ранее глава Nvidia Дженсен Хуанг.
Из-за высоких требований к пропускной способности суперкластера ИИ, который постоянно обучает модели, инженерам xAI пришлось уделить особое внимание сетевому взаимодействию. Каждая графическая карта оснащена выделенным сетевым контроллером на 400 GbE с дополнительным 400-гигабитным сетевым адаптером на сервер. Таким образом, каждый сервер Nvidia HGX H100 имеет Ethernet со скоростью 3,6 терабит в секунду — весь кластер работает на Ethernet, а не на экзотических интерфейсах, таких как InfiniBand, которые обычно используются в суперкомпьютерах.
Суперкомпьютеру для обучения моделей ИИ, включая Grok 3, необходимы не только графические процессоры, но и накопители, а также центральные процессоры. Однако информация об этих компонентах предоставляется компанией xAI лишь частично. Из цензурированных видео становится ясно, что за это отвечают серверы на чипах x86 в корпусах Supermicro, которые также оснащены жидкостным охлаждением и предназначены для работы в качестве хранилищ данных или для рабочих нагрузок, ориентированных на центральные процессоры.
На объекте также установлены аккумуляторы Tesla Megapack. При работе кластера возможны резкие колебания в потреблении энергии, поэтому эти батареи ёмкостью до 3,9 мегаватт-часов каждая установлены между электросетью и суперкомпьютером в качестве энергетического буфера.
АйДи-Электро представляет новое поколение компактных преобразователей частоты Inovance MD600
На рынке России появилась новинка – самый компактный преобразователь частоты компании Inovance, мирового лидера по управлению движением. Поставляет оборудование компания АйДи-Электро, много лет успешно сотрудничающая с Inovance. 14.11.2024 139 0 0Как модель "Никому не доверяй" трансформирует безопасность систем управления
Первоначальное раздражение производителя из-за того, что ему заблокировали доступ к новому программному обеспечению HMI, переросло в признательность за встроенные меры нулевого доверия для защиты промышленных операций от ряда киберугроз. 13.11.2024 232 0 0Первый в мире электрический гуманоидный робот стал работать с открытым исходным кодом
Первый в мире полноразмерный чисто электрический гуманоидный робот «Тяньгун» из Китая получил открытый исходный код. Этот шаг направлен на стимулирование вторичного развития и ускорение интеграции роботов в повседневную жизнь. 13.11.2024 233 0 0