Zuletzt aktualisiert am 04.12.2025 7 Minuten Lesezeit

Failover

Failover (deutsch: Ausfallsicherung oder automatische Umschaltung) bezeichnet den automatischen Prozess, bei dem ein Backup-System die Aufgaben eines ausgefallenen Primaersystems uebernimmt. Das Wort setzt sich aus den englischen Begriffen "fail" (Fehler) und "over" (Uebergang) zusammen.

Failover ist ein zentrales Konzept der Hochverfuegbarkeit und gehoert zu den wichtigsten Themen in der IT-Infrastruktur. Der Grundgedanke basiert auf Redundanz: Mehrere identische oder aehnliche Systeme sind parallel vorhanden, wobei ein System primaer arbeitet und die anderen in Bereitschaft stehen. Im Fehlerfall uebernimmt das Backup-System automatisch die Aufgaben des ausgefallenen Primaersystems, wodurch die Verfuegbarkeit von Diensten und Daten gewaehrleistet bleibt.

Funktionsweise von Failover

Die automatische Ausfallsicherung laeuft in mehreren Phasen ab. Zunaechst wird das Hauptsystem kontinuierlich ueberwacht, um sicherzustellen, dass es ordnungsgemaess funktioniert. Diese Ueberwachung erfolgt haeufig durch gegenseitige Serverueberwachung mittels Heartbeat-Mechanismen, bei denen die Systeme sich regelmaessig signalisieren, dass sie noch aktiv sind.

Wenn ein Problem erkannt wird - etwa ein Serverausfall, Netzwerkausfall oder Datenbankfehler - wird sofort ein Alarm ausgeloest. Das Backup-System uebernimmt dann automatisch die Verantwortung fuer die Bereitstellung von Diensten, ohne dass ein Administrator eingreifen muss. Im Idealfall erfolgt dieser Prozess nahtlos und ohne Ausfallzeit aus Sicht der Benutzer.

Automatisches vs. manuelles Failover

Ein wichtiger Unterschied besteht zwischen Failover und Switchover: Waehrend Failover automatisch erfolgt und keine menschliche Intervention erfordert, ist ein Switchover ein manuelles Umschalten auf ein redundantes System. In der Praxis wird der manuelle Switchover haeufig fuer geplante Wartungsarbeiten eingesetzt, bei denen ein kontrollierter Wechsel gewuenscht ist.

Failover-Typen: Hot, Warm und Cold Standby

Je nach Anforderung und Kosten-Nutzen-Abwaegung gibt es verschiedene Failover-Typen, die sich in ihrer Bereitschaft und Schaltgeschwindigkeit unterscheiden. Die Wahl des richtigen Typs haengt von den Geschaeftsanforderungen und dem verfuegbaren Budget ab.

Hot Standby

Beim Hot Standby laeuft der Backup-Server parallel zum Primaersystem und repliziert alle Daten und Prozesse in Echtzeit. Im Fehlerfall erfolgt ein sofortiger Wechsel mit einer Recovery Time von weniger als einer Sekunde. Dies ist die teuerste, aber auch zuverlaessigste Variante. Der Backup-Server verbraucht bereits Ressourcen und Energie, ist aber jederzeit einsatzbereit.

Warm Standby

Der Warm Standby-Server laeuft und ueberwacht das Primaersystem, ist aber nicht aktiv in Diensten involviert. Die Synchronisierung erfolgt regelmaessig, aber nicht kontinuierlich. Der Wechsel dauert Sekunden bis wenige Minuten. Warm Standby stellt einen Kompromiss zwischen Verfuegbarkeit und Kosten dar.

Cold Standby

Bei Cold Standby ist der Backup-Server abgeschaltet oder nicht aktiv verbunden. Im Fehlerfall muss er erst hochgefahren und konfiguriert werden. Das Failover dauert Minuten bis Stunden und erfordert moeglicherweise manuelle Eingriffe. Dies ist die kostenguenstigste Loesung, aber auch die langsamste.

Standby-Typ Bereitschaftsgrad Umschaltzeit Kosten Einsatzbereich
Hot Standby Voll aktiv < 1 Sekunde Hoch Kritische Systeme (Banking, E-Commerce)
Warm Standby Teilweise aktiv 1-5 Minuten Mittel Wichtige Geschaeftsanwendungen
Cold Standby Inaktiv > 30 Minuten Niedrig Weniger kritische Systeme

Die Wahl des richtigen Standby-Typs sollte immer auf Basis einer Kosten-Nutzen-Analyse erfolgen. Fuer kritische Geschaeftsprozesse wie Online-Banking oder E-Commerce ist Hot Standby oft unverzichtbar, waehrend interne Verwaltungssysteme mit Cold Standby auskommen koennen.

Failback: Rueckkehr zum Primaersystem

Ein eng mit Failover verbundenes Konzept ist das Failback. Es beschreibt den umgekehrten Prozess: Wenn das urspruengliche Primaersystem wiederhergestellt und wieder einsatzbereit ist, werden die Dienste und Daten von der Backup-Komponente zurueck zum Primaersystem umgeschaltet.

Der Failback-Prozess umfasst mehrere Schritte: Zunaechst wird das Primaersystem repariert und hochgefahren. Dann erfolgt die Synchronisation mit den Daten des aktiven Backup-Systems. Nach erfolgreicher Synchronisation kann die Umschaltung zurueck auf die primaere Konfiguration erfolgen - entweder manuell oder automatisch. Dieser Schritt ist wichtig, um die urspruengliche Architektur wiederherzustellen und Ressourcen optimal zu nutzen.

Wichtige Metriken: RTO und RPO

Fuer die Planung und Bewertung von Failover-Strategien sind zwei Metriken zentral, die du kennen solltest:

Recovery Time Objective (RTO)

Das RTO (Recovery Time Objective, Wiederherstellungszeitrahmen) beschreibt die maximal akzeptable Ausfallzeit eines Systems. Es definiert, wie lange ein Service ausfallen darf, bevor erhebliche geschaeftliche Auswirkungen entstehen. Ein Hot-Standby-System kann ein RTO von weniger als einer Sekunde erreichen, waehrend Cold Standby RTOs von ueber 30 Minuten haben kann.

Recovery Point Objective (RPO)

Das RPO (Recovery Point Objective, Wiederherstellungspunktziel) definiert den maximalen Datenverlust, der akzeptabel ist. Es beschreibt, bis zu welchem Zeitpunkt in der Vergangenheit Daten wiederhergestellt sein muessen. Bei kontinuierlicher Datenreplikation liegt das RPO nahe bei null, waehrend bei taeglichen Backups ein RPO von 24 Stunden besteht.

Ein Finanzunternehmen koennte beispielsweise ein RTO von 5 Minuten und ein RPO von 1 Minute als Anforderung definieren, waehrend ein internes Verwaltungssystem ein RTO von 4 Stunden und RPO von 24 Stunden akzeptabel finden koennte.

Technologien und Protokolle fuer Failover

Mehrere Technologien und Protokolle ermoeglichen oder unterstuetzen Failover-Mechanismen in der Praxis. Die wichtigsten sind:

VRRP (Virtual Router Redundancy Protocol)

VRRP ist ein Netzwerkprotokoll, das in RFC 5798 standardisiert wurde. Es fasst mehrere Router in einer Gruppe zusammen und stellt einen virtuellen Router dar. Im Fehlerfall uebernimmt der naechste verfuegbare Router automatisch die virtuelle IP-Adresse. VRRP wird haeufig fuer Netzwerk-Redundanz eingesetzt.

HSRP (Hot Standby Router Protocol)

HSRP ist ein proprietaeres Protokoll von Cisco mit aehnlicher Funktionalitaet wie VRRP. Es wird oft in Cisco-Umgebungen verwendet und ermoeglicht die automatische Umschaltung zwischen Routern bei einem Ausfall.

Clustering

Hochverfuegbare Cluster-Systeme sind eine Kombination mehrerer Server, die gemeinsam kontinuierliche Verfuegbarkeit ermoeglichen. Die Einzelkomponenten eines Clusters tauschen sich staendig ueber ihren Status aus und halten Daten durch Replikation synchron. Wird ein Server ausfaellig, uebernimmt ein anderer Server seine Workloads automatisch ohne oder mit minimaler Downtime.

Load Balancer

Load Balancer verteilen den Datenverkehr auf mehrere Server. Im Fehlerfall eines Servers erkennt der Load Balancer dies automatisch durch Health Checks und leitet neu ankommende Verbindungen nur auf funktionierende Server weiter. Dies sorgt fuer eine implizite Failover-Funktionalitaet.

Einsatzgebiete von Failover

Failover wird in vielen kritischen IT-Infrastrukturen eingesetzt. Die haeufigsten Anwendungsszenarien sind:

  • Server und Web-Services: Redundante Web-Server und Application-Server, die ueber Load Balancer verteilt sind, sorgen dafuer, dass bei Ausfall eines Servers die Last automatisch auf funktionierende Server verteilt wird.
  • Datenbanken: Datenbankcluster ermoeglichen automatisches Failover bei Datenbankausfaellen. Dies ist besonders kritisch in Banking-, E-Commerce- und Produktionssystemen.
  • Netzwerkkomponenten: Router, Switches und Firewalls koennen mit Redundanz ausgestattet werden. Bei Ausfall eines Netzwerkelements uebernimmt automatisch eine Backup-Komponente.
  • Storage-Systeme: Redundante Storage-Systeme und RAID-Konfigurationen stellen sicher, dass Datenverlust vermieden wird.
  • Cloud-Infrastrukturen: Multi-Cloud- oder Multi-Region-Setups ermoeglichen Failover zwischen verschiedenen Rechenzentren oder Cloud-Anbietern.

Praxisbeispiele

Um das Konzept greifbarer zu machen, hier einige konkrete Szenarien aus der Praxis:

Banking-Server mit Hot Standby

Ein Kreditinstitut betreibt seinen Transaktionsserver als Hot Standby mit kontinuierlicher Datenreplikation. Bei Ausfall des Primaerservers schaltet das System automatisch innerhalb von 100 Millisekunden zum Backup-Server um. Fuer die Kunden ist dies unsichtbar - ihre Transaktionen werden nahtlos fortgesetzt.

E-Commerce-Webseite mit Load Balancing

Ein Online-Shop verwendet mehrere Web-Server, die ueber einen Load Balancer verteilt sind. Faellt ein Server aus, stellt der Load Balancer automatisch fest, dass dieser nicht mehr erreichbar ist (Health Check), und leitet neue Anfragen nur auf die verbleibenden Server. Bestehende Sessions werden ueber Session-Replikation erhalten.

Netzwerk-Redundanz mit VRRP

Ein Buerogebaeude hat zwei Internet-Zugaenge: einen Primary und einen Secondary. Ein VRRP-Router monitort kontinuierlich die Verbindung. Falls die primaere Leitung ausfaellt, wechselt der Router automatisch zur sekundaeren Leitung, ohne dass Benutzer einen Unterschied bemerken.

Best Practices fuer Failover

Um Failover-Loesungen erfolgreich zu implementieren, solltest du folgende Punkte beachten:

  • Regelmaessige Tests: Failover-Szenarien sollten regelmaessig getestet werden, um sicherzustellen, dass sie im Notfall funktionieren.
  • Monitoring und Alerting: Ein robustes Monitoring ist essentiell, um Ausfaelle schnell zu erkennen und das IT-Team zu benachrichtigen.
  • Dokumentation: Failover-Plaene muessen dokumentiert und das IT-Team geschult sein.
  • RTO und RPO aus Geschaeftsanforderungen ableiten: Die Metriken sollten aus den tatsaechlichen Geschaeftsanforderungen abgeleitet werden, nicht aus technischen Moeglichkeiten.
  • Kosten-Nutzen-Analyse: Hot Standby erfordert die doppelte Infrastruktur und ist entsprechend teuer. Waehle den Standby-Typ passend zu deinen Anforderungen.

Failover in der IT-Praxis

Failover-Konzepte begegnen dir in der IT-Praxis haeufig, besonders in der Arbeit als Fachinformatiker fuer Systemintegration. Du wirst mit Hochverfuegbarkeitsloesungen arbeiten, Cluster-Systeme konfigurieren und redundante Netzwerkarchitekturen planen. Das Verstaendnis von RTO und RPO hilft dir dabei, die richtigen Entscheidungen bei der Systemplanung zu treffen.

Quellen und weiterfuehrende Links