NVIDIA ConnectX
Иногда просто хочется идти быстрее. Недавно мы обсуждали сеть со скоростью 400 Гбит/с в контексте новой возможности, которую могут обрабатывать слоты PCIe Gen5 x16. Сегодня мы рассмотрим настройку с использованием NDR 400Gbps Infiniband/400GbE.
Особая благодарность PNY. Год назад мы не знали об этом, но PNY продает не только графические процессоры NVIDIA для рабочих станций, но и ее сетевые компоненты. Мы работали над коммутатором 400GbE, и в ходе обсуждений выяснилось, что нам следует рассмотреть эти карты как часть этого процесса. Это может показаться достаточно простым, но это большой переход от сети 100GbE к сети 400GbE, и карты MCX75310AAS-NEAT сейчас являются популярным товаром из-за того, как много людей хотят развернуть высокопроизводительное сетевое оборудование.
ConnectX-7 (MCX75310AAS-NEAT) — это низкопрофильные карты PCIe Gen5 x16. Мы фотографировали с полноразмерным кронштейном, но в коробке есть низкопрофильный кронштейн.
Что должно обратить внимание людей, так это размер охлаждающего решения. Просто чтобы дать представление о том, насколько рано мы находимся в этом вопросе, мы посмотрели характеристики мощности ConnectX-7 и не смогли их найти. Мы запросили у NVIDIA спецификации по официальным каналам. Мы публикуем эту статью без них, так как кажется, что NVIDIA не уверена в том, что это такое на данный момент. Немного странно, что NVIDIA не просто публикует характеристики мощности этих карт в своем паспорте.
Вот обратная сторона карты с забавной задней панелью радиатора.
Вот вид карты сбоку со стороны разъема PCIe Gen5 x16.
Вот еще один вид сверху карты.
Вот вид с ожидаемого направления воздушного потока на большинстве серверов.
Для краткого обзора это низкопрофильная однопортовая карта, работающая на скорости 400 Гбит/с. Это огромная полоса пропускания.
Для такой карты одним из наиболее важных аспектов является ее установка в систему, способную использовать скорость.
К счастью, мы установили их на наши серверы Supermicro SYS-111C-NR 1U и Supermicro SYS-221H-TNR 2U, и они работали без проблем.
SYS-111C-NR позволил нам оценить односокетные узлы, поскольку нам не нужно было избегать соединения сокет-к-сокету при настройке системы. На скоростях 10/40 Гбит/с и даже 25/50 Гбит/с мы слышим, как люди обсуждают прохождение соединений между сокетами как проблему с производительностью. С появлением 100GbE стало более актуальным и распространенным стало использование одного сетевого адаптера на каждый процессор, чтобы избежать обхода. При скоростях 400GbE влияние значительно хуже. При использовании двухпроцессорных серверов с одной картой 400GbE, возможно, стоит рассмотреть возможность использования многохостовых адаптеров, которые могут подключаться напрямую к каждому процессору.
Как только карты были установлены, перед нами встала следующая задача. В картах используются каркасы OSFP. Наш коммутатор 400GbE использует QSFP-DD.
Эти два стандарта немного различаются по уровням мощности и физическому устройству. Можно адаптировать QSFP-DD к OSFP, но не наоборот. Если вы никогда не видели оптику OSFP или ЦАП, у них есть собственное решение по управлению температурным режимом. В QSFP-DD сверху используются радиаторы на клетках QSFP-DD. OSFP часто включает в себя решение для охлаждения, которое имеется в ЦАП и оптике OSFP в нашей лаборатории.
Это довело нас до нескольких дней паники. ЦАП Amphenol OSFP стоимостью 500 долларов, а также имеющиеся ЦАП OSFP to QSFP-DD использовали решение для охлаждения радиатора. Мы отправили все в лабораторию для подключения, но получили обратно уведомление о том, что концы OSFP ЦАП не подходят к портам OSFP карт ConnectX-7 из-за прямого охлаждения ЦАП.
Причина, по которой NVIDIA использует OSFP, скорее всего, связана с более высоким уровнем мощности. OSFP допускает использование оптики мощностью 15 Вт, а QSFP-DD — 12 Вт. На ранних этапах внедрения более высокие потолки мощности позволяют упростить раннее внедрение, что является одной из причин, по которым существуют такие вещи, как модули CFP8 мощностью 24 Вт. С другой стороны, мы уже рассмотрели оптику FS 400Gbase-SR8 400GbE QSFP-DD, так что рынок движется.
Через несколько звонков у нас были кабели, которые работали. Наш ключевой вывод, независимо от того, используете ли вы OSFP-адаптеры ConnectX-7 сегодня или читаете эту статью через 5 лет, когда они станут недорогим подержанным оборудованием, следует учитывать размер радиатора на конце OSFP, который вы подключаете к ConnectX. 7. Если вы привыкли к QSFP/QSFP-DD, где все подключается и работает, возникает более серьезная проблема, связанная с такими глупыми проблемами, как размеры разъемов. С другой стороны, если вы являетесь поставщиком решений, это возможность получить профессиональную поддержку. NVIDIA и реселлеры, такие как PNY, также продают кабели LinkX, что было бы проще. Это отличный урок.