Mobile-Menu

VoIP-Probleme und wie man sie los wird Diese Faktoren verantworten schlechte Qualität von Voice over IP

Autor / Redakteur: Marco Speckert / Ulrike Ostler

Entscheidend für die Qualität von Voice-over-IP-Telefonaten ist letztlich die Qualität der beteiligten Netzwerkkomponenten und Endgeräte. Denn diese haben maßgeblich Einfluss auf Störfaktoren wie Latenz, Jitter oder Paketverlust. Unternehmen sollten dies bei der Auswahl ihrer Netzwerkkomponenten berücksichtigen. Doch zuerst muss jeder wissen, worauf es tatsächlich ankommt.

Firmen zum Thema

Offenbar finden viele die VoIP-Qualität zum Heulen. Das aber muss nicht so sein.
Offenbar finden viele die VoIP-Qualität zum Heulen. Das aber muss nicht so sein.
( Archiv: Vogel Business Media )

Die Anfangszeit von Voice over IP ist vor allem mit zwei Eindrücken verknüpft: die Faszination, über ein Datennetz „kostenlos“ zu telefonieren, und die schlechte Qualität der Verbindung, die viel Ähnlichkeit mit Überseetelefonaten via Satellit aufwies. Seither jedoch hatte der Voice-over-IP-Markt viel Zeit, die Kinderkrankheiten auszukurieren und eine einsatzfähige Technik heranzuziehen.

Heute empfiehlt sie sich sowohl Privatanwendern als auch Geschäftskunden als kostensparende Alternative zur leitungsgebundenen Festnetztelefonie. Doch während in den digitalisierten leitungsgebundenen Telefonnetzen die Qualität der Sprachübertragung konstant auf einem hohen Niveau liegt – entsprechend auch der Ausdruck „ISDN-Qualität“ – ist die Telefonie über das Internet noch nicht ganz so weit.

Bildergalerie

Doch: Qualität ist relativ. Maßstäbe für Qualität sind von Person zu Person unterschiedlich und auch die Wahrnehmung von Qualität unterscheidet sich zwischen verschiedenen Menschen deutlich. Während für den ernsthaften Geländewagenfahrer beispielsweise eine robuste Konstruktion die Qualität eines Fahrzeugs ausmacht, legt der Sportwagenfahrer eher Wert auf geringe Spaltmaße, saubere Nähte an den Ledersitzen und eine makellose Lackierung. Die wahrgenommene Qualität ergibt sich in beiden Beispielen aus komplett unterschiedlichen Werten. Und dies ist auch bei der Wahrnehmung von Sprachqualität so.

Im Folgenden werden die Merkmale genannt, an denen sich die Qualität von Voice over IP festmachen lässt. Nicht alle sind gleichermaßen relevant. Einige aber müssen die VoIP-Anbieter unbedingt im Griff haben.

Mean Opinion Score

Zur Messung der Qualität von Sprachtelefonaten dient heute der so genannte Mean Opinion Score (MOS), den die ITU-T in der Recommendation P.800 „Methods for subjective determination of transmission quality“ spezifiziert. Dieser stellt das arithmetische Mittel einzelner subjektiver Bewertungen dar und umfasst einen Wertebereich zwischen 1 und 5.

Tabelle 1 zeigt die verschiedenen Ausprägungen und ihre Bedeutung. Der MOS ermöglicht es, die Qualität unterschiedlicher Sprachkodierungen (Codecs), Sprachverbindungen und Echokompensatoren miteinander zu vergleichen.

Durchsucht man das Internet nach MOS-Tabellen für verschiedenen Codecs, ein Beispiel findet sich in Tabelle 2, so wird man für ein und denselben Codec unterschiedlichste Werte finden. Dies unterstreicht einmal mehr die Subjektivität der Messung und vor allem des Empfindens von Qualität an sich.

Doch unabhängig davon, wie unterschiedliche Testgruppen die Qualität einer Sprachübertragung beurteilen, gibt es verschiedene objektiv messbare Faktoren, die die Qualität einer Sprachverbindung in einem Datennetz beeinflussen. Dabei ist es wichtig, die Parameter einer Sprachverbindung immer von einem Ende zum anderen Ende zu betrachten und zu messen. Denn verschiedene Teilstrecken tragen unterschiedlich stark zu einzelnen Störfaktoren bei, so dass nur eine Gesamtbetrachtung ein vollständiges Bild ergibt.

wweiter mit: Bandbreite

Bandbreite

Grundsätzlich muss einem Telefongespräch über ein Datennetzwerk zu jeder Zeit ausreichend Bandbreite zur Verfügung stehen. Die für die Übertragung der Sprachdaten benötigte Bandbreite ergibt sich unter anderem aus dem verwendeten Codec und dessen Bitrate, der Nutzlast pro Paket – zum Beispiel 20 Millisekunden Sprache pro Datenpaket – sowie den Overheads der eingesetzten Protokolle aller Ebenen.

Zur Berechnung der benötigten Bandbreite für eine bestimmte Anzahl gleichzeitiger Gespräche finden sich im Internet unter dem Stichwort „Bandwidth Calculator“ zahlreiche Webseiten. Neben den reinen Sprachdaten benötigen auch die Signalisierungsinformationen ausreichend Bandbreite. Der Bedarf ist je nach Protokoll unterschiedlich und im Gegensatz zu den Sprachdaten nicht konstant.

Wichtig ist letztlich, dass im Netzwerk immer ausreichend Bandbreite für die Telefonie zur Verfügung stehen muss. Hierbei helfen beispielsweise die Reservierung einer Mindestbandbreite für VoIP sowie Priorisierungsfunktionen in den Switches wie Class of Service (CoS), Port-Priorisierung, Dienste-Priorisierung und IEEE 802.1q/Q-Unterstützung. Entsprechend der Kennzeichnung der Sprachpakete greifen dann Quality-of-Service-Mechanismen (QoS) in den Switches, um im Zweifelsfall Sprachdaten Vorrang vor weniger zeitkritischen Daten wie zum Beispiel E-Mails zu geben.

Latenz

Die Verzögerung bei der Übermittlung von Datenpaketen, auch Network Packet Delay genannt, beschreibt die Zeit, die ein Datenpaket benötigt, um von seinem Startpunkt durch das Netzwerk zu seinem Ziel zu gelangen. Jede Station auf dem Weg, wie Switches, Router, Firewalls oder Jitter-Puffer (mehr dazu später), sowie die Länge des Wegs selbst erhöht diesen Wert.

Die Latenz, die ein einzelner Router verursacht, hängt dabei einerseits von dessen Hardwaredesign und andererseits von dessen Konfiguration ab. So haben beispielsweise neben der Architektur eines Layer-3-Switches auch dessen Zugriffslisten (ACLs) sowie Queuing- und Übertragungsmethoden Einfluss auf die Latenz, die das Gerät einem Paket hinzufügt.

Gerade an dieser Stelle unterscheiden sich die Geräte verschiedener Hersteller stark, sodass man bei der Komponentenauswahl der lastabhängigen Latenz besondere Aufmerksamkeit schenken sollte und diese im Idealfall lastunabhängig ist. Innerhalb des eigenen Netzwerks lässt sich die Latenz einer Verbindung meist noch kontrollieren. Läuft eine Sprachverbindung jedoch auch über ein öffentliches Netzwerk, fügt dieses der Paketlaufzeit Latenzen hinzu, die außerhalb der Kontrolle des Unternehmens liegen.

Bei der Messung von Latenzzeiten ist grundsätzlich zwischen einer Einwegstrecke und dem Hin- und Rückweg zu unterscheiden. Zwischen Endpunkten in einem Netzwerk ohne Berücksichtigung der Endgeräte lässt sich bei einer Latenz von weniger als 80 Millisekunden (ms) eine mit dem ISDN-Netz vergleichbare Sprachqualität erzielen, sofern auch alle anderen Faktoren stimmen. 80 bis 180ms ist für geschäftliche Telefonate ausreichend und immer noch viel besser als „Mobilfunkqualität“.

Selbst Verzögerungen über 180ms in eine Richtung können für bestimmte Anwendungsbereiche immer noch akzeptabel sein. Die ITU-T empfiehlt eine Einwegverzögerung inklusive der durch die Endgeräte verursachten Latenz von 150ms. Verzögerungen über 250 Millisekunden führen meist zu dem Problem des „Talk-over“. Hierbei fängt eine Person an zu sprechen, während das Gegenüber bereits spricht, da dies durch die Verzögerung nicht wahrgenommen wird. Ende-zu-Ende-Latenzzeiten über 400ms können zu Instabilitäten im Netzwerk führen. Daher ist die Messung der verfügbaren Bandbreite sowie der Latenz auf den geplanten Verbindungsstrecken vor der Einführung einer VoIP-Lösung unbedingt notwendig.

weiter mit: Jitter

Jitter

In der Netzwerktechnik bezeichnet Jitter die Varianz der Laufzeit von Datenpaketen vom Sender zum Empfänger aus Sicht der Anwendung. Jitter von mehr als 20 Millisekunden kann bei einer angenommen Paketnutzlast von 20 Millisekunden an Sprachdaten zu Qualitätsproblemen bei der Sprachübertragung führen.

Um die Folgen von Jitter abzuschwächen, haben viele Hersteller Jitter-Puffer in ihre Sprachanwendungen integriert. Jitter-Puffer speichern eingehende Pakete für eine bestimmte Zeit, bevor sie diese an den Dekompressionsprozess weiterleiten. Jitter-Puffer glätten also den Paketfluss, fügen aber selbst der Verbindung Latenz hinzu.

Zu hoher Jitter äußert sich in der Praxis ähnlich wie Latenz, da in beiden Fällen Pakete verworfen werden, wenn die Latenz größer ist als die Hälfte des Jitter-Puffers. In einem komplett geswitchten Netzwerk tritt dabei immer weniger Jitter auf als in einem Netzwerk mit Hubs, da dort Kollisionen zu erneuten Übertragungen und somit zu unterschiedlichen Paketlaufzeiten führen.

Paketverlust

Paketverlust bedeutet, dass ein Sender Pakete auf ihren Weg schickt, die auf Grund von Netzwerkproblemen nicht beim Empfänger ankommen. In der Praxis ist es dabei schwierig, Paketverlust als Ursache eines Problems zu erkennen. Denn jeder Codec geht mit Paketverlusten anders um. Beispielsweise könnte bei identischer Verlustrate die wahrgenommene Sprachqualität eines Codecs mit Datenkompression besser sein als bei einem Codec, der die komplette Bandbreite belegt.

Paketverluste werden zudem von Menschen unterschiedlich wahrgenommen. So kann das Ohr Paketverluste während eines normalen Gesprächs beispielsweise schwerer wahrnehmen als während der Übertragung eines Dauertons. Zudem macht es einen Unterschied, ob beispielsweise zehn aufeinanderfolgende Pakete verloren gehen oder zehn Pakete, die sich über einen längeren Zeitraum zufällig verteilen. Haben die Datenpakete eine größere Sprachnutzlast, ist der Effekt von Paketverlusten wiederum größer als bei kleinen Datenpaketen.

Da Sprachdaten bei Verlust nicht noch mal übertragen werden, äußert sich dies durch Unterbrechungen, Verzögerungen oder Störgeräusche während eines Telefonats. Bei Signalisierungen hingegen steigt der Datenverkehr bei einem Paketverlust über drei Prozent deutlich an, da diese bei Verlust erneut übermittelt werden.

Für die Praxis bedeutet dies, dass zwischen zwei Endpunkten der Paketverlust maximal ein Prozent für ISDN-Qualität betragen sollte. Weniger als drei Prozent ist für normale Geschäftsgespräche noch ausreichend und immer noch besser als Handyqualität. Mehr als drei Prozent Paketverlust kann für Sprachverkehr immer noch akzeptabel sein, führt aber wie erwähnt bei der Übertragung der Signalisierungsdaten zu Problemen.

Paketreihenfolge

Paketreihenfolge

Eine falsche Reihenfolge eingehender Datenpakete wirkt sich bei Sprach- und Videoübertragungen ähnlich wie Paketverlust aus. Wenn ein Paket außerhalb der Reihe eintrifft, wird es vom Endgerät standardmäßig verworfen. Denn es ist natürlich nicht sinnvoll, Sprachdaten in falscher Reihenfolge wiederzugeben.

Typischerweise werden Pakete verworfen, wenn ihre Verspätung größer als die Haltedauer des Jitter-Puffers ist. Die Ursachen für eine falsche Reihenfolge können geplante Maßnahmen wie Load-Balancing oder ungeplante Ereignisse wie das Re-Routing auf Grund von Überlastungen von Teilstrecken sein.

Transcodierung

Unter Transcodierung versteht man die Umwandlung von Sprachsignalen beim Übergang von einem TDM- zu einem IP-Netz und umgekehrt. Müssen während eines Gesprächs die Sprachdaten mehrmals umgewandelt werden – beispielsweise da beide Teilnehmer intern über IP telefonieren, der Anruf aber über das Festnetz vermittelt wird – verringert sich bei jedem Übergang die Sprachqualität. Dies lässt sich letztlich nur durch ein möglichst intelligentes Routing von Gesprächen lösen.

Echo

Für das berüchtigte Echo gibt es bei VoIP-Gesprächen zwei Ursachen: Akustisches Echo entsteht, wenn bei einem Telefon eine Rückkopplung zwischen Lautsprecher/Hörermuschel und dem Mikrofon auftritt. Leitungsecho hingegen entsteht bei unterschiedlicher Impedanz beim Übergang zwischen einem zwei- und vierdrahtigen Netz, bei der Signalkonvertierung zwischen einem TDM-Bus und dem LAN oder bei ungleicher Impedanz zwischen einem Kopfhörer und dessen Adapter.

Um Echo zu eliminieren, vergleichen Funktionen zur Echoauslöschung (Echo Cancellation) in den Endgeräten bereits empfangene und in einem Puffer gehaltene Sprache mit dem aktuellen Sprachmuster. Stimmen beide überein, rechnet der Echoauslöscher das Echo heraus. Jedoch verfügen auch diese Systeme nur über einen begrenzten Zwischenspeicher für den Mustervergleich. Ist zudem die Latenz zwischen zwei Endpunkten in eine Richtung größer als die Haltedauer des Puffers im Echoauslöscher, wird dieser niemals ein Muster zur Löschung erkennen können.

weiter mit: Endgeräte

Endgeräte

Schließlich haben auch die eingesetzten Endgeräte einen nicht zu unterschätzenden Einfluss auf die Qualität einer Sprachverbindung. Während dedizierte IP-Telefone in den meisten Fällen für eine optimale Sprachübertragung entwickelt wurden, kann beim Einsatz von Softphones bereits die Qualität von Mikrofon und Lautsprecher einen großen Einfluss auf die Sprachqualität haben.

Auch die Soundkarte spielt eine wichtige Rolle. Entscheidend ist hier vor allem, dass diese den Full-Duplex-Betrieb unterstützt. Auch der PC oder Laptop, auf dem das Softphone läuft, kann zu Verzögerungen beitragen. Hier addieren sich Latenzzeiten, die Jitter-Puffer, Sound-System sowie weitere Prozesse verursachen, die auf dem Rechner Prozessorzeit konsumieren. Verschlingt ein Hintergrundprozess wie ein Virenscanner oder eine Desktop-Suchmaschine kurzzeitig zuviel Rechenzeit, wirkt sich dies direkt auf das gerade geführte Telefonat aus.

Voice over WLAN (VoWLAN)

Sind IP-Telefone nicht per Kabel sondern drahtlos mit dem lokalen Netzwerk verbunden, wird dies auch kurz als VoWLAN bezeichnet. Grundsätzlich gelten alle oben genannten Qualitätsparameter auch in diesem Fall. Denn hinter dem Access Point laufen die Gespräche weiterhin über das drahtgebundene Firmennetz. Bei drahtlosen Telefonaten per WLAN kommen aber noch ein paar Besonderheiten dazu, die die Qualität eines Gesprächs zusätzlich beeinflussen.

Zuerst ist bereits bei dem Design eines WLANs zu berücksichtigen, wie viele Benutzer gleichzeitig pro Access Point telefonieren sollen. Je nach WLAN-Technologie, Entfernung der Benutzer zum Access Point und Menge des weiteren Verkehrs müssen die Access Points dann entsprechend dicht ausgelegt werden. Doch die größte Herausforderung bei VoWLAN ist die Latenz.

Denn die (notwendige) Verschlüsselung auf der Funkstrecke kann die Latenz deutlich erhöhen. Die unsichere WEP-Verschlüsselung ist dabei deutlich gnädiger als die sichere WPA und WPA2-Verschlüsselung. Ein guter Kompromiss ist WPA/WPA2 mit einem Preshared Key, was zwar immer noch Latenz für den Schlüsselaustausch hinzufügt, aber sich bei weitem nicht so schlimm auswirkt wie eine Radius-Anfrage.

Bewegen sich Benutzer während eines Gesprächs zwischen verschiedenen Access Points, können die mit dem Handover verbundenen Tätigkeiten des Clients wie Scans nach weiteren Zugangspunkten in der Nähe, erneute Authentifizierung und gegebenenfalls die Übernahme einer neuen IP-Adresse die Latenz noch zusätzlich erhöhen. Ein dediziertes VoWLAN-Telefon wird dabei in den meisten Fällen geringere Latenzzeiten aufweisen als ein Softclient, da dort das darunterliegende Betriebssystem nicht für den Telefonie-Einsatz optimiert ist und selbst entscheidet, wann es wohin umschaltet.

Dedizierte drahtlose Endgeräte können beispielsweise kontinuierlich im Hintergrund nach weiteren Access Points suchen und sich sogar schon einmal dort authentifizieren, bevor sie die Verbindung an eine neue Funkzelle übergeben. Dies setzt natürlich ein korrektes WLAN-Design mit überlappenden Funkzellen voraus. Schließlich sind auch auf der WLAN-Strecke QoS-Mechanismen wie beispielsweise SpectraLink Voice Priority (SVP), Wi-Fi Multimedia (WMM) oder 802.11e zu nutzen.

Über den Autor:

Marco Speckert ist seit 1999 in der Netzwerkbranche tätig und arbeitet seit 2006 als Network Consultant bei Extreme Networks.

(ID:2022796)