Fachartikel
Grid-Computing 3.0
Performance-Gewinn und schnelle Umstellungsprozesse

Schon frühzeitig wurden Grids im wissenschaftlichen High Performance Computing eingesetzt, später folgten kommerzielle Lösungen auf Client-Server-Basis. Mithilfe moderner Middleware ließen sich immer komplexere Grids aufbauen, mit denen die installierten Hardware-Ressourcen besser genutzt werden konnten. Diese Aufgaben lassen sich zunehmend durch Virtualisierung lösen, während sich die Middleware-Ebenen mehr und mehr zum neuen Engpass in den Tera- und Petabyte-Grids entwickeln. Die Lösung dafür heißt "Virtualisierung der Middleware" — bislang eine Nischenanwendung von wenigen Startups. Doch diese gewinnen immer mehr Großkonzerne als Kunden.

Der Begriff Grid-Computing ist fast so alt wie die professionelle IT-Welt. Schon in den frühen 70er-Jahren vernetzten Universitäten und Forschungseinrichtungen ihre "Numbercruncher", um ihre Ergebnisse elektronisch auszutauschen, vor allem aber, um im Verbund eine größere Rechenleistung zu erhalten. Proprietäre Protokolle beherrschten die Kommunikation, die ausschließlich zum Datentransfer über angemietete Punkt-zu-Punkt-Verbindungen ablief. Diese Versionen werden als Grid 1.0 bezeichnet.

Ende der 70er-Jahre kam Grid 2.0 unter dem Universalbegriff "Distributed Computing" auf den Markt. In der kommerziellen Datenwelt meinte man damit die Anbindung von weit entfernten Terminals mittels IBM-Protokollen an Vorrechner und IBM-Mainframes. In der technisch-wissenschaftlichen IT-Welt war es vor allem die Vernetzung der leistungsstarken Systeme von Digital Equipment, die im Verbund mit Supercomputern zur Lösung von komplexen Simulationen und aufwendigen Berechnungen eingesetzt wurden. Diese beiden Welten sind mit der Einführung der Client-Server-Architekturen Anfang der 90er-Jahre zu einer Ethernet-basierten Grid-Landschaft verschmolzen, die sich bis heute als solide Architektur erwiesen hat.

Grid-Computing ist nichts Neues

Auch wenn der eine oder andere Computerhersteller meint, er habe das Grid-Computing gerade neu erfunden, ist es nichts Neues. Allerdings existiert in der IT-Welt kaum ein Begriff, der so viel Verwirrung stiftet wie Grid. "Wenn ich die zwei oder drei IT-Begriffe nennen müsste, die bei mir die größte Verwirrung auslösen, dann sind das Grid, Storage-Grid und Storage-Cluster", sagt Simon Robinson, Senior-Analyst der 451-Group. Seine Kollegen Steve Wallage und William Fellows glauben deshalb, dass der Begriff "Grid" in diesem Jahr weniger benutzt wird, obwohl die Bedeutung von Grid-Computing und Grid-Storage rasant zunimmt. "IBM und Oracle werden vermutlich noch in diesem Jahr das Wort Grid in ihrer Terminologie eliminieren und ihn durch einen breiteren Begriff ersetzen", schrieben beide in ihrem "Grid-Computing-Outlook 2007". Das Problem von Grid-Computing ist, dass es viele Wandlungen durchlaufen hat und sich in jüngster Zeit wieder eine neue Topologie herauskristallisiert. Gartner-Analyst Massimo Pezzini beschreibt diesen Wandel folgendermaßen: "Die ursprüngliche Idee des Grid-Computing war es, durch das Bündeln von vielen Prozessoren eine größere Leistungseinheit zu erhalten. Heute geht es beim Grid-Computing hauptsächlich um die Aspekte Skalierbarkeit und Verfügbarkeit." Seiner Ansicht nach habe sich das Grid-Computing bereits grundlegend gewandelt und mit den Vorläufern nur noch den Namen gemeinsam. "Wir erleben gegenwärtig eine völlig neue Art des Grid-Computing, die nichts mehr gemeinsam hat mit dem Grid unserer Väter und Großväter."

Kürzlich erinnerte Suns Chefentwickler Greg Papadopoulos an die Einschätzung des IBM-Übervaters Thomas Watso von 1943: "Ich glaube, es gibt weltweit einen Bedarf von höchstens fünf Computern." Papadopoulos stimmt dieser Einschätzung heute zu, auch wenn seine Aufzählung sechs Namen enthält: Google, eBay, Amazon, Microsoft, Yahoo und Salesforce.com. eBay bestätigt, dass es sich als ein riesiges Storage-Grid mit einer Kapazität von zwei Petabyte sieht, das jede Woche um zehn Terabyte wächst. "Bei eBay sprechen wir von der vernetzten Speicherbasis als unser 'Grid'", sagt Paul Strong, der als wissenschaftlicher Berater am Aufbau des eBay-Grid mitgewirkt hat. Er und viele Entwickler sowie Betreiber von großen Anwendungen beklagen inzwischen das Fehlen von geeigneten Standards zur schnellen Integration von Grid-basierten Speichereinheiten in die Middleware: "Wir hoffen, dass die Arbeiten der Grid-Task-Force bald zu konkreten Produkten führen", sagte er auf einem Forum im vergangenen November.

Konsolidierung der Computerleistung

Papadopoulos meinte mit seiner Aufzählung der sechs Computer einen übergeordneten Trend: Dass es zu einer immer stärkeren Konsolidierung bei der Computerleistung kommt, die sich nur noch in weltumspannenden Peta-Systemen messen lässt. Hierzu gehören nicht nur die bekannten Enduser-orientierten Netzlösungen, sondern auch die weltweiten Grid-Lösungen, die überwiegend im B2B-Bereich angesiedelt sind. Hewlett-Packard betreibt beispielsweise weltweit 85 Rechenzentren, auf denen 5.000 verschiedene Anwendungen mit über 700 Datenbanken laufen. Diese Grid-Lösungen haben vielfach ihre Grenzen erreicht oder schon überschritten, als noch eine einfache Verwaltung möglich war. HPs IT-Chef Randy Mott arbeitet an einer drastischen Reduktion der Komplexität, die er vor allem mit weit reichender Server- und Storage-Virtualisierung erreichen will. Mit derartigen Virtualisierungen lassen sich höchst unterschiedliche und komplexe Systemlandschaften zu einem einzigen virtuellen System integrieren. Doch die gegenwärtige Realisierung mit einer hierarchisch angeordneten Middleware stößt vielerorts an ihre Leistungsgrenzen. Die weltweit operierende Bank HSBC versucht gerade mit einer Neuausrichtung ihres Netzes die Performance bei den komplexen Analysemodellen der Investmentbanker zu verbessern. "Wir haben bereits 16 Grids, 1.500 Server und 3.000 CPUs und müssen schnellstmöglich die bisherigen Silos verlassen, um die vorhandenen Ressourcen besser zu nutzen", sagt HSBC-Chefarchitekt Craig Carter.

Startups auf dem Vormarsch

Industrieanalysten sind inzwischen bei diesen Megaprojekten skeptisch: "Bei hochgradig transaktionsorientierten Anwendungen durchlaufen die Daten inzwischen zu viele Middleware-Stufen, das dauert zu lange und ist nicht mehr ausbaubar", sagt Pezzini über den gegenwärtigen Flaschenhals, der seiner Ansicht nach nur mit einer neuen Grid-Generation gelöst werden kann. Doch das ist einfacher gesagt als getan, denn die herkömmlichen Grid-Anwendungen sind für die neuen Grid-Systeme ungeeignet. Eine Lösung bieten derzeit nur junge, unbekannte Unternehmen, denen nicht jeder CIO sofort die Sicherheit seiner Daten anvertrauen möchte. Doch das Misstrauen schwindet und die neue Infrastruktur gewinnt an Fahrt. "Wir erleben derzeit einen immensen Ansturm bei den neuen Grid-basierten Infrastruktur-Anbietern wie Gigaspaces, Appistry, Paremus, Aumega Networks und Majitek. Diese Lösungen virtualisieren nicht einzelne Komponenten, sondern eine komplette Infrastruktur. Das spart Kosten sowie Bearbeitungszeit und erhöht die Sicherheit der Datenintegrität bei den Transaktionen", gibt Pezzini den Grund für die hohe Marktakzeptanz an.

In der Tat erleben Startups derzeit einen unvorhersehbaren Höhenflug. So konnte beispielsweise Gigaspaces seinen Umsatz im vergangenen Jahr verdreifachen. Zu seinen Kunden gehören keine kleinen Technikschmieden, sondern anspruchsvolle Unternehmen wie beispielsweise Sempra Energy. Das Unternehmen setzt die Gigaspaces-Software bereits seit zwei Jahren ein und Bec Wilson, CIO von Sempra Energy, ist sich sicher, dass Aufbereitung und Ausgabe von Trendcharts dadurch 100-mal schneller geworden seien.

Der Erfolg der Startups bei gro-ßen Firmen liegt daran, dass deren neue Applikations-Infrastruktur die bisherigen Grenzen einer hierarchischen Middleware verläßt, indem die Middleware virtualisiert wird. Dieser Ansatz eignet sich besonders als Basis für großvolumige, transaktionsorientierte Software-Anwendungen mit einer serviceorientierten Architektur.

Veränderte Voraussetzungen

Nach Ansicht von Nati Shalom, Cheftechnologe von Gigaspaces, haben sich die Voraussetzungen, die zur Entwicklung der gegenwärtigen Middleware geführt haben, völlig geändert, sodass es heute eine bessere Anwendungsinfrastruktur gibt. Zwei frühere Grundannahmen stimmen nicht mehr: Dass das Netzwerk der Flaschenhals und dass der Hauptspeicher teuer und unsicher sei. "Die neuen Breitbandtechnologien wie Infiniband haben die Netzleistung inzwischen so weit erhöht, dass diese als unbegrenzt angesehen werden kann. Beim Hauptspeicher gibt es leicht skalierbare Größenordnungen, die noch vor wenigen Jahren undenkbar gewesen wären", sagt er über den neuen Ansatz der Gigaspaces-Technologie. Unter Ausnutzung dieser Möglichkeiten lassen sich die Funktionen der Middleware in verteilten Hauptspeichern virtualisieren.

Während ein Upgrade bei normalen Middleware-Anwendungen aus vielen Komponenten besteht, muss bei den neuen Grid-Infrastrukturen nur der Hauptspeicher erweitert werden. Das kann überall im Netz geschehen, denn die Speicher aller Systeme werden als ein Gesamtspeicher verwaltet. Größenmäßige Begrenzungen gibt es dafür praktisch keine. Nach Aussage von Nati Shalom lässt sich gegenwärtig ein Speicherraum von einigen Petabytes verwalten. Das Unternehmen spricht deshalb bei seiner Lösung von einem Daten-Grid, bei dem die Daten in sogenannten Grid-Boxen abgelegt sind. Bei der neuen Architektur werden deutliche Einsparungen hinsichtlich der Zeit erreicht, die die Daten benötigen, wenn sie durch die verschiedenen Ebenen der Middleware hindurchgereicht werden.

Doch eine solche Memory-basierte Architektur wirft eine Reihe von Fragen auf: "Die häufigsten Fragen die wir erhalten, zielen auf die Zuverlässigkeit und Integrität sowie auf den Fall ab, dass ein Job für eine bestimmte Datenbox versagt", berichtet Gigaspaces Executive Vice President Geva Perry aus dem Alltag. Seine Antworten auf diese Sorgen sind einfach und plausibel: Eine Monitor-Software überwacht alle Transaktionen; falls eine nicht ausgeführt werden kann, wird diese mit den zugehörigen Daten an andere Boxen umgelenkt und was die Zuverlässigkeit des Hauptspeichers angeht, so erfolgt automatisch ein synchroner Back-up auf Festplatten.

Die Erfolge der neuen Grid-Architekten sind beeindruckend: Alle Unternehmen die auf die neue Infrastruktur gewechselt haben, loben nicht nur den Performance-Gewinn, sondern auch den einfachen Umstellungsprozess. Es werden exakt die gleichen Schnittstellen zur Verfügung gestellt, wie sie auch die Middleware-Anbieter offerieren.

Notes: