von Michael Schmitt, Technology Business Consultant
EMC Centre of Expertise "Data Protection"
Ein Unternehmen muss sich mit dem Schutz seiner Daten auseinandersetzen und Risikoszenarien durchdenken. Daten bedürfen der Einteilung zwischen unternehmenskritisch, schützenswert und weniger wichtig. Es gilt abzuwägen, wie wahrscheinlich eine Katastrophe ist und wie teuer der Verlust der Daten wäre. Diese Einschätzung und die zu ergreifenden Maßnahmen lassen sich in verschiedene Ebenen einteilen und werden im Folgenden als Level Of Paranoia (LoP) bezeichnet.
Bei einer Variante eines sehr niedrigen LoP liegen die Daten beispielsweise auf einer ungespiegelten Festplatte. Nachts wird eine inkrementelle Sicherung auf Band durchgeführt und am Wochenende eine Vollsicherung. Für die Datenbereitstellung entstehen geringe Kosten. Fällt die Festplatte jedoch aus, gehen alle Änderungen seit der letzten Sicherung verloren. Im Fall eines sehr hohen LoP werden die Daten auf einem hochverfügbaren Speichersystem gehalten. Eine lokale Spiegelung stellt sicher, dass der Ausfall einer Festplatte nicht zum Datenverlust führt. Um einer Zerstörung des Storage-Systems vorzubeugen, werden die Daten nochmals in eine andere Lokation gespiegelt. Mit Hilfe von CDP (Continuous Data Protection) werden alle Änderungen in Echtzeit protokolliert, so dass bei einem logischen Fehler auf die aktuellste intakte Version zurückgegriffen werden kann. Für den Fall des Versagens aller Mechanismen wird eine Sicherungskopie auf Band erzeugt und in einem Tresor verwahrt. Für einen unterbrechungsfreien Datenzugriff wird der zugehörige Server lokal geclustert. Beim Ausfall eines Servers kann ein anderer automatisch einspringen. Zusätzlich findet ein Remote Clustering statt.
Risiken richtig einstufen
Die wichtigste Kennzahl für jede Datenkategorie ist die Recovery Time Objective (RTO). Sie legt fest, bis zu welchem Zeitpunkt bestimmte Daten wiederhergestellt werden können. Die Recovery Point Objective (RPO) wiederum definiert den Zeitraum zwischen zwei Datensicherungen. Um die individuellen Sicherheitsanforderungen zu erfüllen, muss im Vorfeld die Anzahl der nötigen Sicherungen und die Sicherungslösung genau definiert werden. Ressourcen für eventuelle Recoveries müssen eingeplant werden. Außerdem ist zu klären, ob für ein wichtiges Recovery gegebenenfalls ebenso wichtige Backups abgebrochen werden dürfen. In Bezug auf die Verfügbarkeit des Backup-Systems spielt vor allem die Sicherung der Log-Dateien wichtiger Datenbanken eine Rolle. Wenn das Filesystem für die Log-Dateien voll läuft, bleibt die Datenbank stehen. In einigen Fällen ist es nötig, für die Auslegung des Backup-Servers ein Cluster-System vorzusehen, um den Backup-Service für diese Dateien mit einer möglichst hohen Verfügbarkeit einzurichten.
Definition von SLAs
Nach der Untersuchung der Einflussfaktoren können Service Level Agreements (SLAs) vereinbart werden. In diesen wird festgeschrieben, welche Werte den einzelnen Kennzahlen zugewiesen werden. Dabei werden unterschiedliche Tier-Level festgelegt, in die dann die verschiedenen Anwendungen eingeteilt werden. Für jeden Tier-Level werden Kennzahlen quantifiziert und bestimmt, wie schützenswert die Daten einer Kategorie sind. Bei der Bestimmung der SLAs können auch Szenarien wie das Rolling Disaster sowie die Bestimmung der Single Points of Failure (SPoF) berücksichtigt werden. Das Rolling Disaster ist ein Spezialfall des LoP. Hierbei tritt ein Desaster nicht zu einem bestimmten Zeitpunkt ein, sondern ein Ereignis zieht ein weiteres nach sich. Erst das Ende der Ereigniskette begründet das eigentliche Desaster – wie etwa Schreibfehler auf einer Komponente eines RAID, der sich auf das gesamte RAID auswirkt oder der Ausfall einer CPU in einem Mehrprozessorsystem, der zu einer Mehrbelastung der übrigen CPUs führt, die dann sukzessive ausfallen. Vor einem Rolling Disaster kann auch die Vermeidung von SPoF nicht schützen. Trotzdem ist die SPoF-Analyse ein wichtiger Baustein bei der Entwicklung von Disaster-Recovery-Lösungen. Dabei werden die wichtigen Komponenten eines Systems redundant ausgelegt.
Störungsquellen
Daten und ihre Verfügbarkeit sind Gefahren krimineller und natürlicher Ursachen ausgesetzt. Die einfachste natürliche Katastrophe ist der Stromausfall. Je nach LoP gibt es verschiedene Methoden, sich dagegen zu schützen. Eine Unterbrechungsfreie Stromversorgung (USV) ermöglicht bei einem Stromausfall ein geordnetes Herunterfahren der Server. Eine weitere Variante ist die Einführung zwei getrennter Stromversorgungen im Rechenzentrum oder die Bereitstellung eines Notstromaggregates.
Ein Server-Ausfall ist ein weiteres Szenario, das im Sinne der LoP betrachtet werden muss. Ein Cluster kann so installiert werden, dass beim Ausfall eines Servers automatisch der andere Server des Clusters dessen Funktion übernimmt. Beim Einsatz eines Standby-Servers wiederum wird ein kurzer Ausfall in Kauf genommen, um die Kosten der Cluster-Lösung zu sparen.
Durch Leitungsausfälle im WAN aber auch den Ausfall einzelner Netzwerkkomponenten im LAN kann der Zugriff auf wichtige Daten behindert werden. Vorsorglich werden deshalb alle Verbindungen einer SPoF-Analyse unterzogen. Für kritische Daten ist dies oftmals die aufwändigste und kostspieligste Komponente in einer umfassenden Strategie zur Katastrophenvermeidung. Auch Anwenderfehler wie das irrtümliche Löschen einer Server-Partition, das versehentliche Betätigen des Not-Aus-Schalters im Rechenzentrum oder das falsche Beschalten im Patch-Feld für die Netzwerkverbindungen können einen Ausfall hervorrufen. Es ist nahezu unmöglich, alle Szenarien zu verhindern, doch kommt es tatsächlich zu einem Datenverlust, können die Daten auf verschiedene Weise wieder hergestellt werden.
Datensicherungsansätze
Das klassische Backup auf Bandlaufwerken ist eine Option, wenn die Struktur der zu sichernden Daten diesem Ansatz entgegenkommt. Bei einer großen Anzahl monolithischer Daten, die leicht parallelisiert werden können, ist die Performance von modernen Bandlaufwerken kaum zu schlagen. 25 LTO-4 Laufwerke, die optimal ausgelastet werden, erreichen einen Datendurchsatz von etwa 3GB/s. Damit können bis zu 10 TB pro Stunde gesichert werden. Eine Bandlösung ermöglicht die Auslagerung spezieller Daten in einen gesicherten Bereich. Alternative Lösungen führen das Backup auf Disk-basiertem Storage durch. Bei der Wiederherstellung der Daten fallen so keine Rüst- und Positionierungszeiten an. Recoveries sind meist bedeutend schneller und erfordern weniger administrativen Aufwand als Bandlösungen.
Ein Sonderfall der Disk-basierenden Backup-Lösungen ist die Sicherung mit Hilfe von Snapshots, die die Wiederherstellungszeit erheblich verkürzen. Bei dieser Technik werden jedoch die produktiven Storage-Systeme durch das Backup belastet. Da sich der Snap immer aus dem Original und den dazugehörigen Änderungen zusammensetzt, werden die Originaldaten für den Restore benötigt. Um einen Restore durchzuführen, müssen sowohl die Originale als auch die Snap-Daten gelesen werden. Tritt in den Originalen ein Defekt auf, ist keine Wiederherstellung aus einem Snap mehr möglich. Eine Weiterentwicklung der Snap-Technologie stellt die Continuous Data Protection (CDP) dar. Hierbei werden Änderungen, die auf den produktiven Storage geschrieben werden, in einem sekundären Storage-System fortgeschrieben. Diese Technik ermöglicht eine Wiederherstellung für jeden beliebigen Zeitpunkt. So ist es möglich, sensible Dateisysteme mit sehr hohen SLAs effektiv abzusichern. Eine ganz andere Richtung schlägt ein neuer Backup-Ansatz ein. Der Fokus ist, möglichst effektiv mit dem Backup-Storage umzugehen und zusätzlich die weiteren Komponenten des Backup-Prozesses zu entlasten. Erreicht wird dies durch Deduplizierung der zu sichernden Daten. Am Markt haben sich zwei Konzepte etabliert, die unterschiedliche Zielrichtungen aufweisen. Das erste ist die Target-based-Deduplication, bei der die Datendeduplizierung auf dem Backup-Medium stattfindet. Bei diesem System wird tatsächlich nur der Platz für die gesicherten Daten reduziert, indem redundante Blöcke erkannt und durch Referenzen auf bereits existierende Daten ersetzt werden. Bei der Source-based-Deduplication wird die Deduplizierung direkt an der Quelle vorgenommen, was zusätzlich zur Verringerung des Backup-Speichers eine Entlastung des Netzwerks sowie eine Verringerung der CPU-Last auf den Servern bewirkt.
Disaster Recovery
Während die Datensicherung auf die Wiederherstellung unternehmenskritischer Daten abzielt, fokussiert das Disaster Recovery auf die Wiederherstellung der darunterliegenden Systeme. In diesem Zusammenhang wird oft von Bare Metal Recovery (BMR) gesprochen. Dieser Begriff ist irreführend, da die exakte Wiederherstellung eines Systems nur auf identischer Hardware problemlos möglich ist. Oft ist der Systemausfall jedoch durch den Ausfall einer Komponente bedingt, die nicht mehr in der ursprünglichen Form verfügbar ist. Da viele BMR-Lösungen auf einem Image-Backup basieren, in dem die System-Partition als Image gespeichert wird, ist die Anpassung des alten Image an die neue Umgebung aufwändig. Eine Alternative ist die Profilsicherung. Hierbei werden wichtige Kennzahlen des Systems in einer Datenbank verwaltet, so dass sie beim Wiederherstellen individuell auf das neue System angewendet werden können. Diese Lösung besteht aus zwei Komponenten: einem Image des Betriebssystems, das in Hardware-unabhängiger Form vorliegt sowie einem Profil aller relevanten Parameter, die das wiederherzustellende System ausmachen. Tritt beim Disaster Recovery eine Hardware-Änderung auf, werden veraltete Parameter nicht mehr zurückgespielt.
Wie man sich im Rahmen der LoP auf ein konkretes Desaster vorbereitet, ist ein sehr individueller Prozess, dessen Ergebnisse je nach Unternehmensbereiche unterschiedlich ausfallen. Wichtig sind drei Kernfragen: Wie wahrscheinlich ist ein spezielles Desaster-Szenario? Wie teuer wäre es, wenn das Szenario eintritt? Was kostet es, sich hiervor zu schützen? Weitere Schritte ergeben sich aus den Antworten und dem Level of Paranoia.









