Per Codetabellen werden aus Texten zur Datenübertragung geeignete Bitströme

Netzwerk-Grundlagen – Codierung von digitalen Datenströmen Per Codetabellen werden aus Texten zur Datenübertragung geeignete Bitströme

30.10.2007Autor / Redakteur: Gerhard Kafka / Dipl.-Ing. (FH) Andreas Donner

Informationen werden für die Übertragung in Kommunikationsnetzwerken digitalisiert und codiert. Konkret bedeutet dies, dass analoge Sprach- und Videosignale in digitale Bitströme konvertiert und Texte bzw. alphanumerische Zeichen nach standardisierten Codetabellen umgewandelt werden. Beide Kommunikationsformen lassen sich für die Übertragung zudem komprimieren, wodurch sich Bandbreite einsparen lässt. Die Kompression ist damit eine Sonderform der Codierung.

Anbieter zum Thema

ALE Deutschland GmbH

Vitel GmbH

Alphanumerische Zeichen werden mit Hilfe standardisierter Codetabellen als eindeutige Bitkombinationen abgebildet. Diese Codetabellen stellen je nach Applikation einen Rahmen von 5, 6, 7 oder 8 Bits zur Verfügung. Die Anzahl der damit darstellbaren Zeichen variiert in Abhängigkeit der dafür verfügbaren Bits. So lassen sich mit 5 Bits 32 (25), mit 6 Bits 64 (26), mit 7 Bits 128 (27) und mit 8 Bits 256 (28) Zeichenkombinationen erzeugen.

Als typische Vertreter von praktisch verwendeten Codetabellen gelten die folgenden Kombinationen: BAUDOT = 5-Bit-Code; findet Verwendung im Telexdienst. EBCD = 6-Bit-Code; steht für Extended Binary Coded Decimal. ASCII = 7-Bit-Code; steht für American Standard Code for Information Interchange und ist Basis für Textanwendungen. EBCDIC = 8-Bit-Code; steht für Extended Binary Coded Decimal Interchange Code und wird für die Datenübertragung mittels bitorientierten Protokollen (HDLC) eingesetzt.

Da jedes codierte Zeichen ein Byte repräsentiert, wird somit deutlich, dass ein Byte – die Definition dafür lautet sinngemäß: eine Gruppe von binären Bits – nicht automatisch aus acht Bits zusammengesetzt ist. Als korrekte Bezeichnung dafür wurde der Begriff Oktett geschaffen.

Interpretation von Codetabellen

Zur Bestimmung eines alphanumerischen Zeichens aus einer Codetabelle bieten sich unterschiedliche Möglichkeiten an, die hier kurz skizziert werden:

binäre Darstellung der einzelnen Bits b1 bis bn
Angabe von Spalten- und Zeilennummer der benutzten Codetabelle
hexadezimale (sedezimale) Schreibweise, bei der Gruppen von jeweils vier Bits mit den Werten 0 bis 9 und A bis F dargestellt werden. Aus 00000000 wird z.B. 00 und aus 11111111 wird FF.

Der für die Textkommunikation am häufigsten verwendete Code heißt ASCII. Dieser Code wurde international als Referenz-Code unter ISO/IEC 646 standardisiert. Die deutsche Referenz dafür findet man in DIN 66003. Und weil sich in der Datenübertragung das Oktett als Einheit für ein Zeichen durchgesetzt hat, wird der 7-Bit ASCII-Code mit einem achten Bit (Paritätsbit) aufgefüllt. Die deutsche Referenzversion berücksichtigt u.a. die Schreibweise von Umlauten.

In der binären Darstellung wird z.B. der Buchstabe „M“ durch die Bitfolge „100 11101“ repräsentiert. Hier ist vorausgesetzt, dass die Übertragung mit dem höchstwertigen Bit b7 beginnt. Die englische Bezeichnung dafür lautet MSB (most significant bit). Für das verwendete Datenübertragungsprotokoll muss deshalb vereinbart werden, ob das MSB oder LSB (least significant bit) zuerst gesendet werden soll.

Innerhalb einer Codetabelle werden alphanumerische Textzeichen und Steuerzeichen unterschieden. So sind die ersten 32 Zeichen der ASCII-Codetabelle ausschließlich für Steuerzeichen (siehe Abbildung 2) reserviert, die auf einem Bildschirm oder Drucker nicht dargestellt werden. Die Steuerzeichen dienen bei den zeichenorientierten Übertragungsprotokollen dem reibungslosen Ablauf des Informationsaustausches. Die Steuerzeichen werden zudem in folgende sechs Gruppen eingeteilt:

Übertragungssteuerzeichen, z.B.: STX,ETX, EOT
Formatsteuerzeichen, z.B.: BS, HT, LF
Gerätesteuerzeichen: DC1 bis DC4
Informationstrennzeichen, z.B.: GS, RS, US
Steuerzeichen zur Codeerweiterung: SO, SI, ESC
Sonstige Steuerzeichen, z.B.: NUL, BEL, CAN

Ferner kann jedem Zeichen einer Codetabelle eine Wertigkeit nach dem Dualsystem zugeordnet werden, wobei dann b1 = 20, b2 = 21 usw. gleichgesetzt werden. Mit Hilfe dieser Wertigkeit lassen sich durch geeignete mathematische Verfahren – wie z.B. bei der Berechnung eines Blocksicherungszeichens mittels Division durch ein Generatorpolynom – fehlerhaft übertragene Informationen erkennen.

Webanwendungen

Für Webanwendungen und E-Mail wird auch die Zeichenkodierung nach ISO-8859 verwendet. Die ISO-8859-Familie wurde von ECMA (ursprünglich: European Computer Manufacturer‘s Association, seit 1994: Ecma International - European Association for Standardizing Information and Communication Systems) entwickelt. Es handelt sich um ein Set von standardisierten Zeichenkodierungen für alphabetische Schriften. Dazu gehören die lateinischen Schriften, auf denen die meisten Sprachen Westeuropas und Amerikas beruhen, oder etwa die kyrillischen Schriften.

Alle Kodierungen der ISO-8859-Familie basieren auf der Darstellung eines Zeichens mit genau einem Oktett. Das heißt, die Codetabellen, auf denen diese Kodierungen aufbauen, enthalten 256 mögliche Zeichen. Bei allen Codetabellen sind die ersten 128 Zeichen, also die Zeichen mit den Werten 0 bis 127, identisch mit der ASCII-Codetabelle. Das hat den Vorteil, dass die üblichen lateinischen Groß- und Kleinbuchstaben, die arabischen Ziffern und die üblichen Sonderzeichen wie Satzzeichen oder kaufmännische Zeichen bei diesen Kodierungen immer zur Verfügung stehen (siehe Abbildung 3).

Die Codetabelle nach ISO-8859-1 enthält die schriftspezifischen Zeichen für westeuropäische und amerikanische Sprachen. Der Zeichenvorrat deckt die Sprachen Albanisch, Dänisch, Deutsch, Englisch, Färöisch, Finnisch, Französisch, Galizisch, Irisch, Isländisch, Italienisch, Katalanisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch und Spanisch ab. Lediglich einzelne Zeichen wie die französischen Ligaturen œ und Œ oder die deutschen Anführungszeichen „“ fehlen hier (siehe Abbildung 4).

Über den Autor

Gerhard Kafka arbeitet als freier Fachjournalist für Telekommunikation in Egling bei München.

(ID:2008733)