Datenverarbeitung am Netzwerkrand Warum Edge Computing nur mit der richtigen Datenbank funktioniert
Anbieter zum Thema
Die dezentrale Verarbeitung von Daten mittels Edge Computing ist die logische Weiterentwicklung von Cloud Computing. Durch die verteilte Edge-Architektur kommt dem Datenmanagement dabei eine zentrale Bedeutung zu – damit rückt auch die Datenbank in den Fokus.

Die Cloud hat die IT-Landschaft zwar im Sturm erobert. In bestimmten Szenarien zeigt sie jedoch prinzipbedingte Schwächen, die mit der zentralistischen Cloud-Architektur zusammenhängen. Alle Daten müssen zuerst in ein oder mehrere, meist weit entfernte, Rechenzentren transferiert, und von dort wieder zurückgespielt werden. Bei der Arbeit im Büro oder im Homeoffice ist das in der Regel unkritisch. Die aufgrund der Laufzeiten zwangsläufig entstehenden Latenzen spielen dort keine gravierende Rolle. Anders sieht das bei Echtzeit-Anwendungen aus, wie sie besonders im Internet of Things und im Industrial Internet of Things typisch sind. Die Sensoren in digitalisierten Produktionsketten sind ebenso auf die Datenverarbeitung in Echtzeit angewiesen wie in der Online-Verkehrssteuerung, bei medizinischen Anwendungen oder der vorausschauenden Wartung. Ein autonomes Fahrzeug wäre führerlos und gefährlich, wenn es auch nur kurzfristig auf aktualisierte Daten aus dem Datacenter warten müsste.
Mehr Effizienz und Sicherheit durch Edge Computing
Edge Computing ist die prinzipielle Lösung dieser Probleme. Neben den geringeren Latenzzeiten durch die verteilte, dezentrale Struktur, die solche Anwendungen überhaupt erst möglich machen, ergeben sich auch Kosten- und Sicherheitsvorteile. Unternehmen ersparen sich einen Teil der teuren Netzwerkverbindungen und sensible, vielleicht sogar unternehmenskritische Daten, müssen nicht in eine anonyme Cloud wandern. Zudem sinkenden die Anforderungen an die Bandbreiten im Netz und die limitierende Abhängigkeit von ständig verfügbaren Online-Verbindungen entfällt. Außerdem erhöht die verteilte Datacenter-Struktur die Ausfallsicherheit.
Dieser Fortschritt wird nicht mit hohem zusätzlichem Aufwand erkauft – im Gegenteil. Auf der Hardware-Seite ist Edge Computing vergleichsweise genügsam: Mini-Rechenzentren und Gateways am Edge sorgen für die Erfassung und Verarbeitung der peripheren Daten und die anschließende Verbindung zur Private oder Public Cloud. Die wichtigsten, bei Edge Computing zusätzlich geforderten Kapazitäten sind die sensorische Ausstattung der Komponenten, die analytischen Fähigkeiten zur Auswertung der peripheren Daten sowie die Kontroll- und Steuerungsmöglichkeiten auf Basis dieser Daten. Damit kommt dem Datenmanagement eine zentrale Bedeutung zu. Dafür wird eine Datenbank benötigt, die die dezentrale Architektur von Edge Computing abbildet und ihre Besonderheiten unterstützt.
Die zentrale Rolle der Datenbank
Die erste Frage ist die nach dem Datenbanktyp: Reine Cloud-Datenbanken fallen aus den eingangs geschilderten Gründen bereits aus dem Raster. Bleiben also relationale und NoSQL-Datenbanken. Die für Edge Computing benötigte Datenbank-Architektur besteht, grob gesagt, aus einer zentralen Vollformat-Datenbank und vielen Datenbanken vor Ort. Ein Teil davon fungiert ebenfalls als Server-Datenbank, ein anderer Teil als funktional abgespeckte Embedded-Datenbanken in einer Light-Version für periphere Kleingeräte. Diese Datenbank-Ableger müssen weder hochperformant noch hochskalierbar sein, noch müssen sie ausgefuchste Funktionen wie etwa die Volltextsuche beherrschen.
Die peripheren Datenbanken müssen jedoch aufgrund der sich oft wandelnden Anforderungen rasch und einfach an sich ständig ändernde Bedingungen und Umgebungen adaptierbar sein. Damit sind wir bei den Datenmodellen. Relationale SQL-Datenbanken arbeiten mit festen Tabellenstrukturen. Änderungen an diesem Zeilen-Spalten-Schema sind, wenn überhaupt, nur mit hohem Aufwand möglich. NoSQL-Datenbanken dagegen besitzen ein viel flexibleres Datenmodell, das auf JSON-Dokumenten beruht. Änderungen können damit weitaus schneller und mit geringerem Aufwand umgesetzt werden.
Replikation und Synchronisation
Über allem aber stehen bei Edge-geeigneten Datenbanken die Replikations- und Synchronisation-Fähigkeiten. Die verteilte Struktur von Edge-Architekturen macht es notwendig, die Daten ständig zwischen der zentralen Datenbank und den peripheren Embedded-Datenbanken zu replizieren, um sie synchronisieren zu können. Das muss nicht in Echtzeit passieren, doch der Datenverkehr sollte minimiert werden, um die Netz- und Datenbank-Belastungen so gering wie möglich zu halten. Die ständige Replikation kompletter Datenbankinhalte wäre hier kontraproduktiv. Deshalb ist die Fähigkeit wichtig, nur die ausgewählten Daten unabhängiger Datenbank-Cluster replizieren zu können. Zudem sollten die Embedded-Datenbanken eigene Analytics-Funktionen für das Data Processing besitzen. Das hat gleich zwei Vorteile. Erstens werden die Latenzzeiten, und zweitens der Datenverkehr zwischen zentraler und peripherer Datenbank weiter minimiert.
Ohne Edge-fähige Datenbank kein Edge Computing. Das klingt vordergründig simpel, zeigt aber, wie wichtig die Datenbank als zentrale Datenmanagement-Instanz für die dezentrale Edge-Architektur ist. Deshalb hängen Funktionalität, Verfügbarkeit und Sicherheit von Edge-Installationen ganz entscheidend von der Wahl der richtigen Datenbank ab.
Über den Autor
Gregor Bauer ist Senior Solutions Engineer Central Europe bei Couchbase.
Dieser Beitrag stammt von unserem Schwesterportal Industry of Things.
(ID:48988133)