Performance-Schub in der EC2-Vernetzung

SRD: Parallele Zustellung von Paketen und Latenz-Reduktion Performance-Schub in der EC2-Vernetzung

22.03.2023 Von Michael Matzer 4 min Lesedauer

Das Protokoll Scalable Reliable Datagram (SRD) wird wahlweise als alternatives Transportprotokoll zwischen EC2-Instanzen genutzt. Es bietet Loadbalancing über mehrere Pfade hinweg und arbeitet mit TCP und UDP zusammen – kann durch zwei Eigenschaften aber einen viel höheren Datendurchsatz erzielen.

Mit dem Scalable Reliable Datagram Protocol (SRD) lassen sich bei der EC2-Vernetzung durch Parallelisierung und der Verringerung von Latenzen enorme Performance-Gewinne erzielen.(Bild: © Kittiphat - stock.adobe.com) — Mit dem Scalable Reliable Datagram Protocol (SRD) lassen sich bei der EC2-Vernetzung durch Parallelisierung und der Verringerung von Latenzen enorme Performance-Gewinne erzielen.
(Bild: © Kittiphat - stock.adobe.com)

SRD, Scalable Reliable Datagram, existiert als IEEE-Papier bereits seit 2020, doch seit Ende November 2022 ist es in einem Produkt allgemein und kostenlos verfügbar: in Amazon Elastic Network Adapter (ENA) Express. AWS hat bereits 2016 seinen Elastic Network Adapter (ENA) vorgestellt. Der ENA brachte Vorteile wie Checksummen-Erzeugung, empfängerseitige Steuerung und schließlich das Multi-Queue Device Interface.

Mit ENA Express erweitert AWS seit November 2022 diese Funktionen um die Vorteile des Scalable Reliable Datagram (SRD). Voraussetzung ist die Nutzung des AWS-Nitro-Stacks in der Nitro-Netzwerkkarte. Nutznießer sind also in erster Linie AWS-Kunden.

ENA Express soll mit dem SRD-Protokoll die Bandbreite vergrößern und die Tail-Latenz von TCP-Paketen erheblich verringern. Auf einem Single-Flow-TCP-Datenfluss soll SRD den Durchsatz von 5 Gbps auf 25 Gbps steigern und die Tail-Latenz von TCP-Paketen für Workloads mit hohem Datendurchsatz (sprich: High Performance Computing, HPC) um 85 Prozent senken. Klingt nach Hexenwerk, ist es aber nicht.

Funktionsweise von SRD

Das Geheimnis des erhöhten Datendurchsatzes liegt in der Möglichkeit, die Zustellung von UDP- und TCP-Paketen (Datagrams) zu parallelisieren. Wie UDP dient SRD dem Datentransfer, doch anders als UDP ist die SRD-Zustellung stets zuverlässig. Neben UDP ist TCP ein weiteres unterstütztes Transferprotokoll. Doch anders als TCP kann SRD Pakete, die sich auf dem Transferweg befinden, umsortieren und sie außer der Reihe zustellen. Das kann also auch parallel erfolgen und hilft so, den potenziellen Stau bei einem Single-Link-Zustellpunkt (Port) zu vermeiden. Stattdessen können die auf andere Bahnen umgeleiteten Datenpakete an verschiedenen Ports in nicht-sequenziellen Paketbündeln eintreffen. Das kann allerdings für manche Systeme eine Herausforderung darstellen.

Im nächsten Schritt nutzt ENA Express das SRD-Protokoll anstelle von GRE bzw. Vxlan usw., um Datenpakete zwischen Nitro-Hypervisor-Hosts zu übertragen. Das soll zu einer schnelleren, zuverlässigen Zustellung von potenziell umsortierten Datenpaketen verhelfen.

Dieses Verfahren hält sich noch im Rahmen des bekannten Konzepts des Equal-cost Multi-path Routing (ECMP) und ist an sich nichts Neues. Koppelt der Kunde jedoch zwei ENA Express Adapter in unterstützten Instanz-Typen miteinander, lassen sich nach AWS-Angaben für eng gekoppelte HPC-Workloads hohe Datendurchsätze und Leistungsraten erzielen.

AWS-Blogger Jeff Bar beschreibt einen Praxistest für den SRD-Einsatz auf EC2-Instanzen. Über die Anforderungen und Caveats haben Barrs Kollegen in der Ausgabe 40 des IEEE-Magazins geschrieben. Ihre Definition lautet klipp und klar: „SRD ist für Hyper-Scale-Rechenzentren optimiert. Es bietet Loadbalancing über mehrere Pfade hinweg und eine schnelle ‚Erholung‘, falls es zu Paketverlusten oder gescheiterten Link-Verbindungen kommen sollte.“ Dieser IEEE-Artikel geht auch näher auf Tail-End-Latenz ein.

Vermeidung der Tail-End-Latenz

Verringerte Tail-End-Latenz ist der zweite große Vorteil des SRD-Protokolls. Doch worum handelt es sich dabei? Der wichtige Punkt hier ist, dass die Tail-Latenz, also die höchste Latenz in einer Gruppe von Paketen über die Gesamtperformance entscheidet, ähnlich dem schwächsten Glied einer Kette. Dabei ist die durchschnittliche Latenz weniger wichtig. Wenn ich 10 Pakete parallel verschicke und mein HPC-Cluster erst dann weiter machen kann, wenn alle Pakete angekommen sind, dann hilft mir eine durchschnittliche Latenz von 1,9 Mikrosekunden nicht, wenn 9 Pakete in 1 Mikrosekunde ankommen, aber ein Paket 10 Mikrosekunden (das ist der Tail) braucht. Denn mein HPC-Cluster muss in diesem Fall dennoch 10 Mikrosekunden warten, bis er weiter rechnen kann.

Mit Tail-End-Latency ist die Latenz-Teit der „Nachzügler“-Pakete gemeint. Das können ein oder mehrere sein und diese sind unabhängig von der Reihenfolge. Das Tail-End ist also die Menge der Datenpakete, die am längsten brauchen, beispielsweise weil sie aufgrund von Störungen verloren gegangen sind und daher, wie bei TCP üblich, nach einem Timeout erneut verschickt werden mussten.

Und da liegt der Hase im Pfeffer: Der Mindest-Time-out liegt in den meisten Betriebssystemen bei wenigen Millisekunden, wohingegen die Fabric-Übertragungszeiten in wenigen Mikrosekunden, also einem Tausendstel, gemessen werden. Wird also dieser Time-out umgangen oder vermieden, erfolgt die Übertragung in Mikro- statt Millisekunden. Voilà, so lassen sich die oben genannten 85 Prozent der Tail-End-Latenz reduzieren, bei stets zuverlässiger Zustellung der Datenpakete.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Netzwerktechnik, IP-Kommunikation und UCC

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Nachteile und Einschränkungen

Wie erwähnt, gibt es SRD derzeit nur bei AWS. Der Launch Ende November 2022 erfolgte laut Jeff Barr auf der 16xlarge-size-Variante der C6gn-Instanzen. Weitere Instanzen und Größen sollen folgen. ENA Express ist kostenlos und in allen kommerziellen AWS-Regionen verfügbar.

Voraussetzung ist die Nutzung des AWS-Nitro-Stacks in der Nitro-Netzwerkkarte. Nutznießer sind also in erster Linie AWS-Kunden. ENA Express braucht bestimmte Ressourcen einer Nitro-Netzwerkkarte, um Pakete zu verarbeiten. Diese Verarbeitung erhöht die Latenz pro Paket um ein paar Mikrosekunden und hat einen minimalen Effekt auf die maximale Anzahl der von einer Instanz verarbeitbaren Pakete pro Sekunde.

„Werden einmal hohe Paketraten mit einer niedrigen Paketgröße gekoppelt, könnte ENA Express daher nicht das Mittel der Wahl sein“, erläutert Jeff Barr. „In allen anderen Fällen kann man einfach SRD in der AWS Management Konsole einschalten, um konsistente Latenz und eine höhere Bandbreite pro Datenfluss zu genießen.“

(ID:49249175)