Fachartikel
Durchblick in der Vielfalt der Daten-Deduplizierungstechnologien

Autor: Dr. Thore Rabe, Director, Backup & Recovery Systems Division, EMC Deutschland GmbH

Prinzipiell ist Daten-Deduplizierung eine Art Virtualisierungstechnologie. Durch die gewaltige Reduzierung von Speicherdaten lassen sich Informationen einfacher verwalten. Zudem werden sie mobiler, während im Vergleich zu vorher die Verwertungsleistung und Effizienz von Speicherinfrastrukturen gesteigert werden kann. Durch Deduplizierung rechnen sich robuste plattenbasierte Infrastrukturen auch für die Datensicherung und viele manuelle Abläufe können automatisiert werden. Auf den ersten Blick sieht das alles zwar rundweg positiv aus, allerdings ergibt sich aus der genaueren Betrachtung der Anwendungsbereiche für diese Technologie ein differenziertes Bild. Viele Anbieter verwenden den Begriff "Deduplizierung" für eine Reihe von Datenreduzierungs-Technologien, von denen viele große Unterschiede in ihren einfachsten Leistungsmerkmalen aufweisen.

Wenn man die verschiedenen Deduplizierungstechnologien vor dem Hintergrund möglicher Anwendungen und Zielsetzungen in einer typischen Unternehmensumgebung betrachtet, stellt man schnell zwei Dinge fest: Erstens beschränkt sich der Nutzen von Single-Instance-Storage (SIS) Deduplizierung auf den Primärspeicher und eventuell auf Archivierungsanwendungen. Warum? Weil SIS nicht auf der „Sub-File“-Ebene greift und daher die Reduzierungsraten relativ gering ausfallen, meist nur das zwei- bis dreifache. Das ist ausreichend, so lange es lediglich um eine bessere Auslastung des Speicherplatzes geht. Allerdings ist der Effekt der Deduplizierung dann nicht groß genug, um zum Beispiel Backup-Daten über vorhandene WAN-Systeme zu repilzieren. Interessanterweise ist der Unterschied zwischen dem Reduzierungseffekt von SIS und den handelsüblichen Kompressionsmethoden nicht sehr groß und es wird sogar bezweifelt, ob SIS tatsächlich zu den Deduplizierungsmethoden gezählt werden sollte. Zweitens wird schnell klar, dass die Anwendungsarten für die Deduplizierung das meiste Potential bietet, alle mit Backup und Datenrettung oder Datensicherung im Allgemeinen im Zusammenhang stehen. Das ist nicht weiter verwunderlich, da der Backup-Vorgang als solcher naturgemäß große Mengen redundanter Daten produziert und abspeichert.

Auf Sub-File-Ebene betrachtet sind die Kategorien der Deduplizierung und alle damit zusammenhängenden Fragen (sowie auch der Wettbewerb zwischen den Anbietern) ein wenig komplexer – zu kompliziert jedenfalls, um in einem kurzen Artikel tiefgründig erläutert zu werden. Wenn allerdings die Metrik einer zehnfachen (also 90 Prozent) Datenreduzierung als Minimum erreicht wird, kann man zumeist davon ausgehen, dass die Leistungen, die normalerweise von echter Deduplizierungstechnologie auf Sub-File-Ebene geboten werden, auch erzielt werden können. Selbstverständlich können Deduplizierungsraten auch viel höher ausfallen, wobei eine 95prozentige Datenreduzierung (20-malig) die Größe des Datensatzes einer 10-maligen Reduzierung nochmals halbiert (alles gute Werte). Wenn allerdings die Reduzierungsraten noch weiter gesteigert werden, werden die Deduplizierungsraten weniger relevant als die Frage, ob die Leistungen der Technologie auch effektiv realisiert werden können.

Kommen wir nun zur Anwendung von Deduplizierungstechnologie in Unternehmen. Wenn man die derzeit wichtigsten sowie die am problematischsten empfundenen Aufgabenbereiche von IT-Managern betrachtet, kann man erkennen, dass Deduplizierung für die meisten von großem Vorteil wäre. Zu diesen Bereichen gehört Server-Virtualisierung, der Aufbau von Tiered-Storage-Infrastrukturen, die Neugestaltung und Verwaltung des Backups, das Management von Datenwachstum, Konsolidierung, Tape-Minimierung, Disaster Recovery (DR), Compliance-Initiativen und Green Computing.

Die Vorteile und entscheidenden Ziele der Implementierung von Sub-File-Deduplizierung sind für die Anwender klar: Die Lösungen versprechen, dass Anwender weniger Speicherplatz benötigen, weniger Druck durch kleine Backup-Fenster haben, die Nutzung von Tapes überflüssig wird, Vorgänge automatisiert und Managementkosten gesenkt werden können, sowie das Recovery schneller und zuverlässiger gestaltet werden kann. Im Gegensatz dazu geraten die Argumente der Anbieter über die beste Art der Deduplizierung und einzelner Produkte häufig eher verwirrend und unsachlich. Deshalb sollten einige Überlegungen im Auge behalten werden, wenn man die Eignung dieser Technologien für die obigen Anwendungen beurteilen will:

  • Während die Aufnahmerate der verschiedene Lösungen wichtig ist, muss jedoch die Geschwindigkeit, mit der die Daten auf Platten transferiert wird dem Bedarf an Cache gegenübergestellt werden, der in einem Deduplizierungssystem vorgehalten werden muss, um eine ständig wachsende Menge an Backups abfangen zu können. Ist die Geschwindigkeit Ihres Systems abhängig von der Disk-IO? Falls ja, dann würde dies in direktem Widerspruch zu dem Ziel von weniger Plattenspeicherplatz stehen.
  • Wieviele Abläufe finden im Rahmen von DR tatsächlich statt und wieviel Zeit vergeht bis Ihre Daten sicher dupliziert, stabil und von dem DR-Ort wiederherstellbar sind? Welche Art von Replikationsoptionen und Topologien wird Ihre Deduplizierungslösung unterstützen? Falls diese begrenzt sind, werden die gesamten DR-Bedürfnisse abgedeckt oder nur Silos? Welche genauen Vorlagen oder Methoden haben die jeweiligen Anbieter in ihre Lösungen für virtuelle Umgebungen integriert?
  • Sind Sie daran interessiert/bereit, Ihre Backup-Software zu ändern?

Die Antworten zu diesen Fragen helfen Ihnen dabei, die Deduplizierungsangebote einzugrenzen. Zudem können Sie so sicherstellen, dass die Implementierung von Deduplizierungstechnologie tatsächlich Ihren Vorgaben und Erwartungen entspricht.

Beitrag erschien in der StorageWelt im Juli 2010

Notes: