Платформа NVIDIA Spectrum-X Ethernet, являющаяся открытой сетевой инфраструктурой, созданной специально для искусственного интеллекта, продолжает задавать стандарты производительности. Ключевым нововведением стала интеграция протокола Multipath Reliable Connection (MRC), который теперь доступен отрасли как открытый стандарт через Open Compute Project (OCP).
Что такое MRC и зачем он нужен?
MRC — это транспортный протокол RDMA, разработанный совместно NVIDIA, Microsoft и OpenAI. Он позволяет распределять трафик одного соединения по нескольким сетевым путям одновременно.
- Аналогия: Если традиционная сеть — это одна дорога через город, то MRC — это умная сетка улиц с навигатором, который мгновенно перенаправляет поток вокруг пробок или аварий.
- Эффективность: Протокол обеспечивает балансировку нагрузки, повышая пропускную способность и доступность сети для масштабных задач обучения ИИ.
Проверено лидерами индустрии
Технология уже успешно применяется в крупнейших «ИИ-фабриках» мира:
- OpenAI: Использует MRC в кластерах на базе архитектуры Blackwell. По словам Сачина Катти (главы промышленных вычислений OpenAI), это позволило избежать задержек и прерываний, сохранив высокую эффективность обучения моделей передового уровня.
- Microsoft и Oracle: Дата-центры Fairwater (Microsoft) и Abilene (Oracle Cloud Infrastructure), предназначенные для обучения гигантских языковых моделей (LLM), полагаются на MRC и Spectrum-X для обеспечения необходимой масштабируемости и отказоустойчивости.
Ключевые преимущества технологии
- Максимальная утилизация GPU: Динамическое распределение трафика гарантирует, что каждый графический процессор получает необходимую пропускную способность, даже при перегрузке сети.
- Мгновенное восстановление: Интеллектуальная повторная передача данных минимизирует влияние кратковременных сбоев, предотвращая простой GPU во время длительных задач обучения.
- Аппаратная отказоустойчивость: Технология обхода сбоев (failure bypass) обнаруживает проблемы и перенаправляет трафик на аппаратном уровне за микросекунды, что критически важно для синхронизации тысяч GPU.
- Поддержка многоплоскостных сетей (Multiplane): Spectrum-X аппаратно ускоряет балансировку нагрузки между независимыми сетевыми плоскостями, обеспечивая низкую задержку при масштабировании до сотен тысяч GPU.
Открытость и гибкость
NVIDIA Spectrum-X предоставляет клиентам выбор транспортных моделей. На адаптерах ConnectX SuperNIC и коммутаторах Spectrum-X могут нативно работать как протокол MRC, так и Adaptive RDMA, а также другие кастомные решения. Это делает платформу гибкой основой для современной ИИ-инфраструктуры.
Разработка MRC велась в сотрудничестве с AMD, Broadcom, Intel, Microsoft и OpenAI, что подчеркивает стремление индустрии к открытым стандартам для сетей следующего поколения.
