Mise en réseau des centres de données IA : conception de structures Ethernet 400G/800G

Cet article explique comment les fabrics Ethernet 400G/800G permettent des réseaux de centres de données IA évolutifs, à faible latence et à large bande passante, répondant aux besoins du trafic des GPU, du contrôle de la congestion et des architectures modernes.
5 min de lecture
Kinshuk Kaushal
Kinshuk Kaushal
Consultant associé, Fondation numérique, HCLTech
5 min de lecture
Réseautage de centres de données IA : conception de structures Ethernet 400G/800G

Nous sommes à l’ère de l’IA. a un impact significatif sur tous les domaines de la vie, que ce soit les soins de santé, les affaires, l’aviation, la recherche, le transport, les télécommunications, le réseau d’entreprise ou tout autre domaine de la vie. Comme l’IA touche la vie quotidienne, de nombreux acteurs sont en concurrence pour en obtenir la meilleure version.

Exigences en matière de réseautique pour l’infrastructure IA :

Comme le besoin en IA augmente, il faut également ajouter plus de centres de données et d’infrastructure pour répondre à la demande. L’infrastructure IA exige des réseaux à large bande passante, à faible latence et sans perte pour soutenir efficacement les charges de travail intensives de GPU et les systèmes IA distribués. L’IA requiert ce qui suit pour fonctionner à pleine efficacité :

  1. Bande passante et débit : Les charges de travail d’IA, en particulier l’entraînement de grands modèles, nécessitent des réseaux capables de gérer d’énormes volumes de données sans délai. Une bande passante élevée assure un transfert rapide des données entre les grappes de GPU, le système de stockage et les ressources infonuagiques, ce qui prévient la sous-utilisation du matériel coûteux et réduit le temps d’entraînement.
  2. Faible latence : Réduire la latence est aussi crucial pour les applications d’IA en temps réel. Une faible latence améliore la communication inter-GPU et permet une mise à jour plus rapide du modèle.
  3. Connectivité sans perte : Un réseau d’IA profite d’une connectivité sans perte qui prévient la perte de données et assure l’intégrité des données. Certains des protocoles sont Infiniband, ROCE et Ethernet.

Modèles de trafic des grappes GPU :

  1. Trafic est-ouest (GPU à GPU) : Ce trafic implique la communication entre les GPU, surtout lors de l’entraînement distribué.
  2. Trafic nord-sud (données entrantes/sortantes) : Ce trafic s’effectue entre le GPU et l’extérieur. Cela est crucial pour le GPU durant l’entraînement et l’inférence.
  3. Communication collective (plusieurs à plusieurs) : L’entraînement en IA utilise souvent des opérations comme « all-reduce », où le GPU échange son gradient avec chaque autre GPU. Ce type de trafic est en rafale et nécessite une bande passante plus élevée. Cela cause une congestion « in cast ». Lors d’une congestion in cast, un énorme flot de données arrive à un seul port.
  4. De plusieurs à quelques-uns à plusieurs : Trafic sur la puce où de nombreux éléments de traitement demandent des données à quelques contrôleurs de mémoire.
Découvrez comment nos services réseau permettent des réseaux sécurisés et agiles

Pour répondre au trafic nord-sud et est-ouest, nous devons envisager de bâtir notre architecture réseau selon les besoins des GPU modernes. Un cluster IA requiert un réseau sans perte avec un débit élevé et une faible latence. De plus, en cas de congestion, il ne doit y avoir aucune perte de trafic. Deux des options les plus pertinentes sont :

  1. Infiniband : Il a été conçu pour connecter des serveurs et du stockage dans des grappes fonctionnant à des débits de données extrêmement élevés, généralement dans la plage de 100 Gbps à 400 Gbps, avec une latence minimale. Infiniband est coûteux en raison des exigences matérielles.
  2. Ethernet : Protocole basé sur Ethernet permettant une performance élevée, une performance sans perte et une grande largeur de bande passante. Ethernet est déjà déployé dans les centres de données traditionnels et mass possède une expertise avec la technologie. Les solutions 1G, 10G, 40G et 100G sont déjà déployées dans les centres de données. Cependant, la nouvelle introduction de 400G et 800G a révolutionné le domaine de l’Ethernet.

Adoption du 400G et du 800G :

Adoption du 400G et du 800G :

Vous pouvez voir comment les exigences de vitesse Ethernet augmentent d’année en année et nécessitent plus de vitesse pour répondre aux besoins des modules de grappe IA.

Voici un exemple de l’évolution des vitesses dans les centres de données :

Voici un exemple de l’évolution des vitesses dans les centres de données :

Cas d’utilisation pour le 400G et le 800G

Cas d’utilisation pour le 400G et le 800G

Architecture fabric extensible :

L’architecture fabric extensible est un pilier des centres de données IA de nouvelle génération. En connectant les nœuds horizontalement via une fabric performante, elle surmonte les limites des systèmes extensibles classiques, offrant une évolutivité résiliente et rentable pour les applications intensives en calcul et en données.

L’architecture spine-leaf est traditionnellement utilisée pour l’extension opérationnelle dans les centres de données actuels. Elle comporte plusieurs commutateurs spine (niveau central) et des commutateurs leaf connectant les points d’extrémité, facilitant le routage multipoint et la redondance. Les étapes d’extension peuvent inclure l’ajout progressif de commutateurs leaf.

Principes fondamentaux des types de réseaux IA

Gestion de la congestion et de la latence : Les grappes IA ont besoin d’un réseau sans perte et doivent fournir un débit élevé. Grâce à l’utilisation de ports Ethernet 400G et 800G, il sera possible de bâtir un réseau à haut débit. L’ECN (Notification explicite de congestion) et le PFC (Contrôle de flux prioritaire) sont utilisés par Ethernet afin d’assurer un contrôle accru de la congestion dans le réseau pour une connectivité sans heurts.

Visibilité réseau et télémétrie : La visibilité réseau et la télémétrie sont essentielles pour gérer et optimiser la performance réseau, surtout avec la demande croissante des charges de travail IA. Avec des ports Ethernet 400G et 800G, les organisations peuvent bénéficier d’une bande passante accrue, d’une latence améliorée, d’un meilleur contrôle du flux et d’une efficacité opérationnelle accrue. En tirant parti des capacités des ports 400G et 800G, les organisations peuvent s’assurer que leurs réseaux sont capables de répondre aux besoins actuels et futurs des charges de travail IA.

Conclusion

L’évolution d’Ethernet vers le 400G et le 800G a rendu possible la création de centres de données IA évolutifs à faible latence et à large bande passante. Ces progrès permettent aux organisations d’augmenter rapidement la capacité de calcul tout en maintenant l’efficacité, la performance et la fiabilité. Grâce à une architecture appropriée, au contrôle de la congestion et à la télémétrie, les fabrics Ethernet de prochaine génération sont bien placées pour alimenter les écosystèmes IA de demain.

Explore the Foundation for Autonomous Growth

Explore the Foundation for Autonomous Growth

Learn more

Partager sur
DFS Fondation numérique Blogues Mise en réseau des centres de données IA : conception de structures Ethernet 400G/800G