Fachartikel
Datendeduplizierung: Kurzer Hype oder Paradigmenwechsel?
Redundante Daten sind überall

Datenwachstum ist die eine Sache, aber wird dieses Wachstum auch immer durch neue, d.h. noch nicht vorhandene Daten verursacht? Denken wir nur an den Rundbrief der Geschäftsführung oder an eine Präsentation an alle Mitarbeiter. Je nach Anzahl der beschäftigten Mitarbeiter entstehen so mit einem Klick auf die „Send“-Taste des Mail-Systems Hunderte, wenn nicht sogar Tausende von Kopien. Natürlich kann moderne Software solcher Dubletten bereits im Postfacheingang erkennen; es gibt aber auch viele Mitarbeiter, die dieses Dokument direkt auf ihrem PC oder auf ihrem zugeordneten Netzwerk Ordner noch einmal abspeichern – sicher ist sicher!

Des Weiteren ist es durchaus auch üblich in einer Präsentation eine kleine Änderung vorzunehmen, das Datum abzuändern um das „neue Dokument“ wieder mit einem anderen File-Namen abzuspeichern. Auch wenn nur wenige Byte geändert wurden bedeutet dieser Vorgang eine Verdoppelung der Datenmenge. Die Liste der „Redundanzgeneratoren“ ist endlos lang: Hunderte bis Tausende von nahezu identischen Betriebssystemkopien liegen verteilt im Netz und Dutzende von Software- oder Datenbankversionen werden z.B. aufgrund geltender Betriebs- und IT-Prozesse oder zur Mandantentrennung parallel gehalten.

Beim Backup potenzieren sich Redundanzen

Wenn schon beim Bereitstellen der Daten für die Anwendungen große Redundanzen auftreten, dann potenzieren sich diese beim täglichen Backup noch einmal um ein Vielfaches. Wie viele Backup Generationen halten Sie üblicherweise gespeichert? 20, 30 oder gar 60 Generationen? Leicht vorstellbar, dass so aus einem File von nur fünf Megabyte leicht eine insgesamt gespeicherte Kapazität von einigen Gigabyte zusammen kommt. Es werden also im täglichen Backup Daten gesichert, die oft zu über 98 Prozent gleich sind, sich also nur unwesentlich vom Backup des Vortages unterscheiden. Nun könnte man leicht die Meinung vertreten, dass Tape-Kassetten inzwischen ja Hunderte von Gigabyte speichern können und zudem immer billiger werden. Vergessen wird hingegen dabei leicht, dass der Aufwand, diese Kassetten zu beschreiben, ihre Performance auszunutzen, sie umzukopieren sobald sie aufgrund unterschiedlicher Schutzfristen nur noch wenige an gültigen Daten enthalten, oft einen enormen Aufwand verursacht. Nicht zu vergessen die Kopien am zweiten Standort, die dem gleichen Pflegeaufwand unterliegen.

Beim Einsatz von inkrementellen Sicherungsverfahren können die täglich zu sichernden Datenmengen zwar reduziert werden, dafür steigt auch hier der Aufwand zur Verwaltung der Tapes enorm an, um z.B. zusammengehörige Daten eines Servers auch möglichst hintereinander auf ein Tape-Medium zu speichern. Ansonsten kann ein Restore im Ernstfall Stunden, wenn nicht sogar Tage dauern, weil die benötigten Daten sich u.U. auf Dutzenden von Tape-Medien befinden.

Natürlich, ein regelmäßiges Backup ist unverzichtbar! Wäre es aber nicht wünschenswert, wenn ein Verfahren, das beim Sichern durch Auffinden von Datenredundanzen die zu speichernde Datenmengen drastisch reduzieren würde? Könnte man dann nicht sogar ganz auf die Tapes verzichten weil die wenigen Daten sich dann auch kostengünstig auf Platte speichern lassen?

Datendeduplizierung ist nicht für umsonst

Datendeduplizierung unterscheidet generell zwei unterschiedliche Verfahren: Deduplizierung direkt an der Quelle, also beim Lesen der Daten, beim Sichern oder erst am Ziel, also beim Schreiben der Daten auf ein Medium, erfolgen. Dabei erfolgt die Überprüfung auf Redundanzen zwar immer auf Blockebene, bei intelligenten Lösungen aber nicht nach einem Raster von festen Größen, sondern dynamisch in variablen Blocklängen, abhängig vom Datenprofil. Das sichert eine hohe Redundanzerkennung, auch wenn aufgrund von eingefügten Datensegmenten die Daten sich mittlerweile an einer anderen Stelle innerhalb des Files befinden. EMC bietet solche Lösungen mit der neuen Version von NetWorker oder auch mit dem Software-Produkt Avamar an. Beide verwenden das gleiche Verfahren. Durch den Einsatz von „Hashing-Algorithmen“ werden für gleiche Files, aber auch für gleiche Datensegmente innerhalb von Files eindeutige „Fingerabdrücke“ errechnet und in Tabellen auf dem Client sowie auch auf einem zentralen Sicherungs-Server abgespeichert. Somit können beim Folge-Backup nur durch lokale Abfrage, aber auch durch Abfrage des Servers diese recht kleinen, 20 Byte großen „Hash Keys“-Redundanzen innerhalb der gesamten Backup-Umgebung – also von allen beteiligten Servern und Clients – erkannt werden und müssen eben nur einmal übertragen und abgespeichert werden. Deduplizierung an der Quelle spart also gleich zweimal: 1) Es müssen insgesamt deutlich weniger Daten auf den zentralen Sicherungs-Server gehalten werden und 2) der Bandbreitenbedarf zwischen Client und Sicherungs-Server wird enorm entlastet – ideal also für die Sicherung von Außenstellen oder innerhalb von VMware-Umgebungen, bei denen sich die Hardware oft beim Backup der vielen Gastsysteme als Flaschenhals darstellt. Avamar kann die Backup-Mengen um den Faktor von bis zu ca. 500:1 im Vergleich zu üblichen Full-Backup-Verfahren reduzieren!

Bei der zweiten Variante erfolgt das Deduplizieren nach dem Backup-Server durch eine eigene Einheit. Abgespeichert werden dann nur noch die eindeutigen Datenblöcke auf Platte. Das Grundproblem ab dieser Stelle ist jedoch, dass Deduplizierung grundsätzlich eine sehr CPU- intensive Angelegenheit darstellt, einer Verkürzung des Backup-Fensters daher nicht zwangsläufig gegeben ist. So liegt das Limit bei den derzeit am Markt befindlichen Systemen maximal bei ca. 400-500 MB/sec. Das entspricht ungefähr der Leistung von vier LTO4 Laufwerken oder ca. einem Drittel einer üblichen virtuellen Tape Library von EMC. Zudem müssen die deduplizierten Datenblöcke zusätzlich mit einer Hardware- Komprimierung verkleinert werden, die weitere CPU-Zyklen erfordert. Daten Deduplizierung ist also nicht für umsonst!

Wie hoch ist ein realistischer Dedup Faktor?

Eine der meist diskutierten Fragen richtet sich nach der Einsparung durch Deduplizierung. Die Antwort ist: Das kommt darauf an! Es gibt mehrere Faktoren, die den Dedup Faktor beeinflussen.

  • Die Daten selbst. Bei komprimierten Daten wie MP3, JPEG oder verschlüsselte Daten ist der Effekt sehr gering. Datenbanken lassen sich eher gut bis sehr gut deduplizieren.
  • Die Veränderungsrate. Das beste Voraussetzung für einen hohen Dedup Faktor sind Sicherungen von Daten, die sich nur wenig verändert werden. Dazu gehören sicher Betriebssystemdateien und User Files/Shares.
  • Das Sicherungsverfahren. Tägliche Vollsicherungen enthalten naturgemäß den höchsten Anteil an redundanten Daten, erhöhen dadurch den Einsparungsfaktor beträchtlich. Die geringste Redundanz bringen inkrementelle Sicherungen, wobei sich jedoch auch hier innerhalb der Files auf Blockebene noch einige Wiederholungen ergeben können.
  • Die Anzahl der Sicherungsgenerationen. Verständlicherweise erhöht sich mit jeder zusätzlich gespeicherten Sicherungsgeneration der Dedup Faktor, denn dadurch erhöht sich das Verhältnis von geschützten Daten zu den tatsächlich gespeicherten Daten.

Wie schon erwähnt werden alle Datenblöcke vor der Speicherung nochmals durch Kompression weiter reduziert. Diese ähnelt der üblichen Tape-Kompression, d.h. es lassen sich auch ähnlich gute Komprimierung¬sfaktoren erreichen. Da auch Komprimierung CPU-Zyklen verbraucht, haben alle EMC-Systeme zur Leistungssteigerung eine zusätzliche Hardware-Karte mit einer eigenen Komprimierungs-CPU verbaut. Aufgrund der vielen Einflussfaktoren ist es daher sehr schwer den zu erwartenden Faktor im Voraus zu bestimmen. Er liegt zwischen 5 und 50 – um eine erste grobe Planung sollte daher von einem Dedup Faktor von 10:1 ausgehen. Für konkretere Planungen gibt es von EMC ein Modellierungs-Tool sowie ein Simulationsprogramm.

Die EMC-Lösungen: Deduplizierung und hohe Performance

Bei den Kunden mit einem Backup-Profil mittlerer Leistung kann eine direkte Deduplizierung im Datenstrom sehr viel Vorteile beim Backup wie auch beim Restore bieten. Mit intelligenten Algorithmen kann können bei geeigneten Daten und Backup-Profilen Deduplizierungsraten von 10:1, 20:1 oder ggf. noch mehr erzielt werden.

Höhere Performanceanforderungen allgemein oder für spezielle Anwendungen sind kein Problem. Die EMC-Lösungen bieten als Option ein zeitversetztes Deduplizieren an, durch die laufende Backup-Verfahren nicht beeinflusst werden. Wie ist das möglich? EMC kann die Daten erst einmal nativ, also im Originalformat abspeichern. Somit entfallen die bremsenden CPU- Zyklen für die Deduplizierung. Durch Regeln gesteuert beginnt dann z.B. erst nach Abschluss der täglichen Backup-Läufe - oder auch nach Erstellung einer bestimmten Anzahl von Backup-Generationen - der eigentliche Dedup-Prozess, also losgelöst vom zeitkritischen Backup Fenster. Abhängig von der jeweiligen technischen Lösung sind vielfältige Regelwerke möglich. Nahezu alle Anforderungen des Kunden können so ideal abgebildet werden.

Hohe Sicherheit für deduplizierte Daten

Backup-Daten sind sehr wichtige Daten. Jeder, der schon mal erlebt hat, dass ein Tape für einen wichtigen Restore aufgrund eines Fehlers nicht mehr gelesen werden konnte und somit die Verfügbarkeit einer Anwendung direkt gefährdet war, wird dies bestätigen. Deshalb muss gerade bei Deduplizierungslösungen die Sicherheit an erster Stelle stehen. Schließlich kann ein Datenblock von ca. zwei Kilobyte in jedem einzelnen Backup verknüpft sein und für seinen Restore benötigt werden. EMC hat deshalb mehrere Maßnahmen zur Vermeidung von Datenverlusten implementiert. So schützt RAID1 oder RAID5 in Verbindung mit einer RAIN Architektur (Redundency Array of indepentend Nodes) die Daten und Metadaten in einer Avamar Umgebung bzw. RAID1 und RAID6 in Verbindung mit kleinen Parity-Gruppen in den EMC Virtual Tape Libraries mit Deduplizierung. Zudem prüfen periodisch ablaufende Routinen permanent die Verknüpfungen zwischen Datenblöcke und Metainformationen auf Konsistenz. Auch die oft zitierte „Hash Collision“, die das sehr unwahrscheinliche Auftreten von gleichen Hash Berechnungen bei ungleichen Blöcken beschreibt, ist bei der EMC Lösung durch zusätzliche Mitberechnung von weiten File Informationen eliminiert, eine mögliche Datenkorruption wird also verhindert.

Ist Tape nun tot?

Zum Schluss noch ein Thema, das schon seit Jahren immer wieder diskutiert wird: Hat Tape durch die immer höheren Speicherdichte bei Platten und insbesondere in Verbindung mit den neuen Deduplizierungsverfahren noch seine Berechtigung? Befürworter der langen Plastikstreifen verweisen auf die ebenfalls stark gestiegene Kapazität und auf die niedrigen Energiekosten. Nur, welcher enorme Aufwand ist nötig, die Kapazität eines Tapes auch wirklich zu 70, 80 oder mehr Prozent zu nutzen und, den Nutzungsgrad auch auf Dauer so hoch zu halten? Permanentes Umkopieren von zusammengehörigen Daten ist notwendig damit ein Restore in vernüftiger Zeit überhaupt möglich ist, das bindet extra Laufwerke und Server-Kapazitäten, vom administrativen Aufwand ganz zu schweigen. Zur Erstellung von Kopien müssen die Daten erneut gelesen werden, dafür werden auch teure SAN- und Server-Ressourcen benötigt. Bei Einsatz von Deduplizierung hingegen bedeutet eine Replizierung von Backup-Daten in einen zweiten Standort eine drastische Reduzierung von Bandbreite im Vergleich zu traditioneller Tape-Technik!

Eins steht daher fest: Durch den Einsatz von Daten-Deduplizierung mit Einsparfaktoren von 10:1 und mehr zeigt die TCO immer deutlicher in Richtung Platte. In der Tat muss jetzt genau überlegt werden, ob die Anforderungen für das tägliche Backup überhaupt die Verwendung des Medium Tape erfordert. Ein Backup ist schließlich nur eine Kopie eines Datenbestandes, die für den Fall des versehentlichen Löschens oder beim Feststellen von logischen Fehlern für einen Restore benötigt wird. Üblicherweise gelten daher Aufbewahrungsfristen von einigen Tagen bis max. 3-4 Monate als sinnvoll. Möglich, dass eine Monatssicherung auch mal länger gehalten wird. Alles andere ist eben kein Backup sondern eher Datenarchivierung. Aus technischen und administrativen Gründen spricht wie angedeutet schon immer vieles für die Platte, die Service-Level kennen in den seltensten Fällen eine Festlegung für ein Medium – wenn nun auch noch die wirtschaftliche Rechnung stimmt, warum sollte Tape dann noch benutzt werden? Zugegeben, es wird in den nächsten Jahren weiterhin Backup-Profile geben, bei denen Tape seine Berechtigung findet. Aber es sieht ganz danach aus, als ob Daten Deduplizierung der neue MP3-Player der IT wäre und, mal ehrlich, wer benutzt zu Hause für seine Datensicherung noch Tape?

Notes: