Mobile-Menu

Lösungen für hocheffiziente KI-Workloads Arista veröffentlicht Suite für smarte KI-Netzwerke

Von Bernhard Lück 3 min Lesedauer

Anbieter zum Thema

KI-Infrastrukturen haben bisher oft Probleme beim Load Balancing. Arista Networks optimiert jetzt auf Ethernet-Basis die Datenströme zwischen Leaf und Spine in der neuen EOS Smart AI Suite. Ebenfalls neu: Eine pragmatische Lösung für die Observability von KI-Jobs.

Die EOS Smart AI Suite von Arista Networks soll dazu beitragen, die Performance von KI-Workloads zu verbessern.(Bild:  Arista Networks)
Die EOS Smart AI Suite von Arista Networks soll dazu beitragen, die Performance von KI-Workloads zu verbessern.
(Bild: Arista Networks)

Arista Networks möchte mit neuen Funktionen sowohl die Performance als auch die Effizienz von KI-Clustern steigern:

  • Cluster Load Balancing (CLB) in Arista EOS könne durch konsistente und latenzarme Netzwerkdatenströme die Performance von KI-Workloads maximieren,
  • CloudVision Universal Network Observability (CV UNO) biete jetzt eine KI-Job-zentrierte Observability, mit der sich die Fehlerbehebung verbessern und die Problemerkennung beschleunigen lasse. So könne die Zuverlässigkeit der Job-Abwicklung auch im großen Umfang sichergestellt werden.

Intelligentes KI-Networking

Die Arista EOS Smart AI Suite sei für die Stabilität und den Schutz von KI-Anwendungen entwickelt worden. Sie unterstützt KI-Cluster mit der Neuerung „Cluster Load Balancing“ – einer auf Ethernet basierten KI-Lastenausgleichslösung, die auf RDMA-Queue-Paaren aufbaut und mit der eine hohe Bandbreitennutzung zwischen Spines und Leaves möglich werde.

KI-Cluster, so Arista, haben in der Regel eine geringe Anzahl von Datenströmen mit großen Bandbreiten. Herkömmliche Load-Balancing-Methoden seien für KI-Workloads daher oft ineffizient und würden zu einer ungleichmäßigen Verteilung des Traffics sowie einer erhöhten Tail-Latenz führen. CLB könne dieses Hindernis durch die Verwendung von RDMA-fähiger Flow-Platzierung überwinden, um eine einheitlich hohe Leistung für alle Datenströme zu gewährleisten und gleichzeitig die Tail-Latenz gering zu halten. CLB verfolge einen ganzheitlichen Ansatz und könne den Datenfluss in beide Richtungen optimieren, von Leaf zu Spine und von Spine zu Leaf, sodass eine gleichmäßige Auslastung und gleichbleibend niedrige Latenzzeiten erreicht würden.

Ganzheitliche KI-Observability

CV UNO, die KI-gesteuerte 3600-Network-Observability-Plattform auf Basis von Arista AVA, könne für nahtlose, durchgängige KI-Job-Transparenz sorgen, da sie Netzwerk-, System- und KI-Job-Daten innerhalb des Arista Network Data Lake (NetDL) vereint. EOS NetDL Streamer sei ein Echtzeit-Telemetrie-Framework, das kontinuierlich granulare Netzwerkdaten von Arista Switches in NetDL streamt.

Im Gegensatz zu herkömmlichem SNMP-Polling, das auf periodischen Abfragen beruht und kritische Updates verpassen kann, könne der EOS NetDL Streamer ereignisgesteuerte Einblicke in die Netzwerkleistung mit niedriger Latenz und hoher Frequenz bieten. Dies trage zur Optimierung großer KI-Trainings- und Inferencing-Infrastrukturen bei.

Der Streamer sei für KI-Beschleunigercluster entwickelt worden und ermögliche eine schnellere Analyse der Leistungsdaten, eine genauere Lokalisierung von Problemen und eine schnellere Behebung von Problemen. Die Zeit für die Fertigstellung von Jobs werde somit minimiert.

Arista nennt folgende Vorteile:

  • KI-Job-Monitoring ermöglicht einen Überblick über den Zustand von KI-Jobs, einschließlich Job- Fertigstellungszeiten, Überlastungsindikatoren (ECN-markierte Pakete, PFC-Pausenframes, Paketfehler) und Puffer-/Link-Auslastung für Echtzeiteinblicke.
  • Deep-Dive-Analytik entdeckt kritische jobspezifische Informationen durch die Analyse von Netzwerkgeräten, Server-NICs (z.B. PFC-Outs-of-Sync-Ereignisse, RDMA-Fehler, PCIe-Fatal-Fehler) und zugehörigen Flows, um Performance-Engpässe präzise zu identifizieren.
  • Flow-Visualisierung nutzt die Leistungsfähigkeit des CV-Topologie-Mappings, um in Echtzeit einen unmittelbaren Einblick in die Abläufe von KI-Jobs mit einer Granularität von Mikrosekunden zu erhalten – und beschleunigt so die Erkennung und Lösung von Problemen.
  • Proaktive Fehlerbehebung erkennt Anomalien frühzeitig und korreliert die Netzwerk- und Rechenleistung innerhalb von NetDL – für eine unterbrechungsfreie, hocheffiziente KI-Workload-Ausführung.

Arista AI-Centers gesteuert durch AVA

Mit seinen Etherlink-KI-Plattformen könne Arista eigenen Angaben zufolge leistungsstarke, standardbasierte Ethernet-Systeme für KI-Netzwerke der nächsten Generation liefern. Mit festen, modularen und verteilten 800G/400G-Plattformen, die mit dem Ultra Ethernet Consortium (UEC) kompatibel seien, könne Etherlink von kleinen KI-Clustern bis hin zu komplexen Implementierungen mit über 100.000 Beschleunigern skalieren.

Der AI Analyzer, powered by Arista AVA, könne mit hochauflösenden Trafficdaten in 100-Mikrosekunden-Intervallen aufwarten und so eine präzise Performance-Optimierung und Fehlersuche ermöglichen. Netzwerkadministratoren könnten so die Leistung optimieren, Probleme schnell beheben und fundierte Entscheidungen für KI-gesteuerte Netzwerke treffen. Arista AVA steuert auch einen Remote EOS AI Agent, der Telemetriedaten von SuperNICs oder Servern an NetDL streamt – für eine nahtlose Netzwerküberwachung und Fehlersuche sowie QoS-Konsistenz über den gesamten Stack hinweg.

Verfügbarkeit

CLB ist Arista zufolge verfügbar für die Plattformen 7260X3, 7280R3, 7500R3 und 7800R3. Die Unterstützung für die Plattformen 7060X6 und 7060X5 ist geplant für das 2. Quartal 2025, die Unterstützung für 7800R4 für das 2. Halbjahr 2025.

CV UNO ist ab sofort verfügbar. Die Verbesserungen der Observability für KI befinden sich in aktiven Kundentests, die allgemeine Verfügbarkeit ist für das 2. Quartal 2025 geplant.

(ID:50357201)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Netzwerktechnik, IP-Kommunikation und UCC

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung