Zuletzt aktualisiert am 17.02.2026 7 Minuten Lesezeit

High Availability

High Availability (deutsch: Hochverfügbarkeit, Abkürzung: HA) bezeichnet eine Systemarchitektur, die darauf ausgelegt ist, IT-Dienste kontinuierlich und mit minimalen Unterbrechungen bereitzustellen. Das Ziel ist es, auch bei Ausfällen einzelner Komponenten den Betrieb aufrechtzuerhalten.

In der modernen IT-Infrastruktur ist Hochverfügbarkeit ein zentrales Designprinzip. Unternehmen sind zunehmend auf digitale Dienste angewiesen, und selbst kurze Ausfallzeiten können erhebliche finanzielle Verluste oder Reputationsschäden verursachen. Eine hochverfügbare Architektur eliminiert sogenannte Single Points of Failure (einzelne Ausfallpunkte), indem kritische Komponenten redundant ausgelegt werden.

Verfügbarkeitsklassen und die Neunen

Die Verfügbarkeit eines Systems wird in Prozent der Betriebszeit gemessen. In der Branche hat sich die Bezeichnung nach der Anzahl der Neunen etabliert. Je mehr Neunen, desto höher die Verfügbarkeit und desto geringer die erlaubte Ausfallzeit pro Jahr.

Verfügbarkeit Bezeichnung Ausfallzeit pro Jahr Ausfallzeit pro Monat
99% Zwei Neunen 3,65 Tage 7,3 Stunden
99,9% Drei Neunen 8,76 Stunden 43,8 Minuten
99,99% Vier Neunen 52,6 Minuten 4,4 Minuten
99,999% Fünf Neunen 5,26 Minuten 26,3 Sekunden
99,9999% Sechs Neunen 31,5 Sekunden 2,6 Sekunden

Für die meisten geschäftskritischen Anwendungen wird eine Verfügbarkeit von mindestens 99,9% (drei Neunen) angestrebt. Systeme mit fünf oder sechs Neunen gelten als hochverfügbar und werden beispielsweise im Banken- und Gesundheitswesen eingesetzt, wo selbst kurze Ausfälle schwerwiegende Konsequenzen haben können.

Grundprinzipien der Hochverfügbarkeit

Eine hochverfügbare Architektur basiert auf mehreren fundamentalen Prinzipien, die zusammenwirken, um kontinuierlichen Betrieb zu gewährleisten. Diese Prinzipien solltest du als IT-Fachkraft verstehen und anwenden können.

Redundanz

Redundanz bedeutet, dass kritische Komponenten mehrfach vorhanden sind. Fällt eine Komponente aus, übernimmt eine andere ihre Funktion. Redundanz kann auf verschiedenen Ebenen implementiert werden: Hardware (doppelte Netzteile, gespiegelte Festplatten), Software (mehrere Anwendungsinstanzen) und Daten (replizierte Datenbanken).

Failover

Failover ist der automatische Übergang zu einem Backup-System, wenn das Primärsystem ausfällt. Dieser Prozess erfolgt idealerweise so schnell und transparent, dass Benutzer keine Unterbrechung bemerken. Man unterscheidet zwischen Hot Standby (sofortige Übernahme), Warm Standby (Übernahme in Sekunden bis Minuten) und Cold Standby (manuelle Aktivierung).

Replikation

Replikation stellt sicher, dass Daten zwischen mehreren Systemen synchron gehalten werden. Im Fehlerfall kann jedes replizierte System die Anfragen übernehmen, ohne dass Daten verloren gehen. Bei Datenbanken unterscheidet man zwischen synchroner Replikation (sofortige Kopie) und asynchroner Replikation (zeitverzögerte Kopie).

Load Balancing

Load Balancer verteilen den Datenverkehr gleichmäßig auf mehrere Server. Fällt ein Server aus, erkennt der Load Balancer dies durch Health Checks und leitet Anfragen automatisch an die verbleibenden funktionierenden Server weiter. Dadurch wird nicht nur die Last verteilt, sondern auch eine implizite Ausfallsicherheit erreicht.

Technologien für Hochverfügbarkeit

Verschiedene Technologien und Protokolle ermöglichen die Umsetzung von Hochverfügbarkeit in der Praxis. Die Wahl der richtigen Technologie hängt von den spezifischen Anforderungen und der vorhandenen Infrastruktur ab.

Cluster-Systeme

Ein Cluster ist ein Verbund mehrerer Server, die gemeinsam als ein System agieren. Die Knoten eines Clusters kommunizieren über sogenannte Heartbeat-Mechanismen miteinander, um den Status der anderen Knoten zu überwachen. Fällt ein Knoten aus, übernehmen die verbleibenden Knoten seine Workloads. Bekannte Cluster-Lösungen sind Pacemaker/Corosync für Linux und Windows Server Failover Clustering (WSFC).

VRRP und HSRP

Das Virtual Router Redundancy Protocol (VRRP, RFC 5798) ermöglicht die Redundanz von Routern. Mehrere Router teilen sich eine virtuelle IP-Adresse, wobei ein Router als Master fungiert und die anderen als Backup bereitstehen. Ciscos proprietäres Pendant heißt Hot Standby Router Protocol (HSRP).

Datenbank-Replikation

Moderne Datenbanksysteme bieten eingebaute Replikationsmechanismen. Bei MySQL gibt es die Master-Slave-Replikation und Group Replication, PostgreSQL bietet Streaming Replication, und Microsoft SQL Server verwendet Always On Availability Groups. Diese Technologien stellen sicher, dass Datenbanken auch bei Serverausfällen verfügbar bleiben.

Container-Orchestrierung

Kubernetes und ähnliche Orchestrierungsplattformen bieten eingebaute Hochverfügbarkeitsfunktionen für containerisierte Anwendungen. Sie überwachen den Zustand von Containern automatisch und starten ausgefallene Container auf anderen Knoten neu. Durch die Definition von Replica Sets wird sichergestellt, dass immer eine bestimmte Anzahl von Container-Instanzen läuft.

Wichtige Metriken: RTO und RPO

Bei der Planung einer Hochverfügbarkeitslösung sind zwei zentrale Metriken entscheidend, die du verstehen solltest:

Recovery Time Objective (RTO)

Das RTO definiert die maximal akzeptable Zeitspanne, die ein System nach einem Ausfall benötigen darf, um wieder betriebsbereit zu sein. Ein RTO von 5 Minuten bedeutet, dass der Dienst innerhalb von 5 Minuten wiederhergestellt sein muss. Je kritischer der Dienst, desto niedriger sollte das RTO sein.

Recovery Point Objective (RPO)

Das RPO beschreibt den maximal akzeptablen Datenverlust, gemessen in Zeit. Ein RPO von 1 Stunde bedeutet, dass maximal die Daten der letzten Stunde verloren gehen dürfen. Bei synchroner Replikation liegt das RPO nahe null, bei täglichen Backups beträgt es bis zu 24 Stunden.

Metrik Bedeutung Beispiel
RTO Maximale Wiederherstellungszeit Banking-System: < 1 Minute
RPO Maximaler Datenverlust E-Commerce: < 5 Minuten

Die Definition von RTO und RPO sollte immer aus den Geschäftsanforderungen abgeleitet werden. Ein Online-Shop benötigt andere Werte als ein internes Dokumentenmanagementsystem.

Service Level Agreements (SLAs)

Hochverfügbarkeitsanforderungen werden in der Regel in Service Level Agreements (SLAs) festgehalten. Ein SLA ist eine vertragliche Vereinbarung zwischen Dienstanbieter und Kunde, die unter anderem die zugesicherte Verfügbarkeit definiert. Cloud-Anbieter wie AWS, Microsoft Azure und Google Cloud veröffentlichen ihre SLAs transparent.

Typische SLA-Inhalte sind die garantierte Verfügbarkeit (z.B. 99,95%), die Definition von Ausfallzeiten, Entschädigungsregelungen bei Nichteinhaltung und die Messverfahren zur Verfügbarkeitsberechnung. Bei der Arbeit mit Cloud-Diensten solltest du die SLAs genau prüfen und verstehen.

Einsatzgebiete

Hochverfügbarkeit ist in zahlreichen Bereichen der IT-Infrastruktur unverzichtbar. Die wichtigsten Einsatzgebiete sind:

  • Webserver und Webanwendungen: E-Commerce-Plattformen, Online-Banking und soziale Netzwerke müssen rund um die Uhr erreichbar sein.
  • Datenbanken: Produktionsdatenbanken enthalten geschäftskritische Daten und benötigen Replikation und automatisches Failover.
  • Netzwerkinfrastruktur: Router, Switches und Firewalls werden redundant ausgelegt, um Netzwerkausfälle zu vermeiden.
  • Storage-Systeme: Speichersysteme nutzen RAID-Konfigurationen und Replikation, um Datenverlust zu verhindern.
  • Cloud-Dienste: Multi-Region- und Multi-Availability-Zone-Deployments sorgen für Ausfallsicherheit auch bei Rechenzentrumsausfällen.

High Availability vs. Disaster Recovery

High Availability und Disaster Recovery (DR) werden oft verwechselt, verfolgen aber unterschiedliche Ziele. Hochverfügbarkeit zielt darauf ab, Ausfälle zu verhindern oder deren Auswirkungen zu minimieren. Disaster Recovery hingegen beschäftigt sich mit der Wiederherstellung nach einem schwerwiegenden Ausfall oder einer Katastrophe.

Aspekt High Availability Disaster Recovery
Ziel Ausfälle verhindern Nach Katastrophe wiederherstellen
Fokus Kontinuierlicher Betrieb Datenwiederherstellung
Umschaltzeit Sekunden bis Minuten Minuten bis Stunden
Typische Szenarien Serverausfall, Netzwerkproblem Rechenzentrumsausfall, Naturkatastrophe
Kosten Hoch (redundante Systeme) Mittel (Backup-Infrastruktur)

In der Praxis ergänzen sich beide Konzepte. Eine vollständige Business-Continuity-Strategie umfasst sowohl Hochverfügbarkeit für den täglichen Betrieb als auch Disaster-Recovery-Pläne für den Katastrophenfall.

Best Practices

Bei der Implementierung einer Hochverfügbarkeitslösung solltest du folgende bewährte Praktiken beachten:

  • Single Points of Failure eliminieren: Identifiziere alle Komponenten, deren Ausfall das gesamte System lahmlegen würde, und mache sie redundant.
  • Regelmäßige Tests durchführen: Teste Failover-Szenarien regelmäßig, um sicherzustellen, dass sie im Ernstfall funktionieren.
  • Monitoring implementieren: Überwache alle kritischen Komponenten kontinuierlich, um Probleme frühzeitig zu erkennen.
  • Dokumentation pflegen: Halte alle Prozesse, Konfigurationen und Notfallpläne aktuell und zugänglich.
  • Geografische Verteilung: Verteile Systeme auf mehrere Standorte oder Rechenzentren, um gegen lokale Ausfälle geschützt zu sein.

High Availability in der Praxis

In der IT-Praxis begegnet dir High Availability regelmäßig, insbesondere als Fachinformatiker für Systemintegration. Du wirst Cluster-Systeme einrichten, Load Balancer konfigurieren und redundante Netzwerkarchitekturen planen. Das Verständnis von Verfügbarkeitsmetriken und SLAs hilft dir dabei, die richtigen Designentscheidungen zu treffen und Kundenanforderungen zu erfüllen.

Quellen und weiterführende Links