Wien - 14. August 2018
Man denkt ja immer, RAID6 Systeme sind nahezu sicher vor Datenverlust. Und ja – wahrscheinlich werden europaweit täglich zig RAID 6 Systeme erfolgreich rebuilded, von denen wir als Datenretter natürlich nichts mitbekommen. In der Regel werden wir nur dann zur Hilfe gerufen, wenn gleich mehrere Faktoren zusammenwirken: der unerwartete Ausfall des Servers – meist nach einem fehlgeschlagenen Rebuild – und ein unvollständiges bzw fehlerhaftes Backup.
Jetzt denkt man vielleicht, RAID6 sei standardisiert und eine Wiederherstellung eines RAID6 Arrays läuft unter „erweiterter“ Routine eines Datenretters. Das dem aber nicht immer so ist, möchte ich an einem kurzen Beispiel erläutern – ein konkreter Fall, der vor wenigen Tagen in unserem Labor war:
Wie bereits erwähnt, mehrere Szenarien müssen zusammenspielen, damit die Anfrage und später der Patient überhaupt in unserem Datenrettungslabor landet. Dies war auch im aktuellen Geschehen der Fall. In einer HP MSA meldete eine Festplatte aus einem RAID6 Verbund einen Fehler. Diese Festplatte wurde entnommen und durch einen neuen Datenträger ersetzt. Allerdings musste der Kunde feststellen, dass der Server die RAID6 Gruppe nicht mehr erkannte. Schnell wurde die alte SAS-Festplatte wieder zurückgebaut, in der Hoffnung man könnte den Server, auf welchem sich mehrere virtuelle VMware Maschinen befanden, wieder zum Laufen zu bringen. Dies war allerdings ebenfalls nicht von Erfolg gekrönt und das nur teilweise vorhandene Backup war natürlich nicht ausreichend.
Der Fall wurde umgehend an unsere Labortechniker übergeben. Es handelte sich um ein RAID6 Vdisk aus einer HP MSA mit 18 zugeordneten Festplatten. Zu aller Überraschung mussten unsere Techniker feststellen, dass zwei dieser Festplatten inhaltlich absolut gar nichts mit dem RAID6 Verbund zu tun hatten. Eine Festplatte hatte nahezu keinen Dateninhalt, und die zweite Festplatte passte von den Daten überhaupt nicht zu den übrigen.
Es stellte sich heraus, dass in der Vergangenheit des Öfteren defekte HDDs getauscht wurden. Vermutlich wurde bei den letzten Beiden aber kein automatisches Rebuild mehr ausgeführt. Die Folge war, dass das Storage über einen längeren Zeitraum bereits im Degraded Mode lief und der Ausfall der dritten Festplatte nun den Datenverlust komplettierte und der VMFS Datapool somit plötzlich nicht mehr verfügbar war.
Die Herausforderung bestand in Folge darin, die Parity und das Q-Polynom virtuell zu simulieren (zur Vertiefung ist das Thema Reed-Solomon zu empfehlen). Letzteres stellte unsere Ingenieure vor eine besondere Herausforderung. Grund hierfür ist, dass jeder Hersteller bei RAID6 quasi „sein eigenes Ding“ dreht. Dies gilt nicht nur für den Verlauf der Parity, sondern insbesondere auch für die Berechnung des Q-Streifens. Zwar hatten wir in der Vergangenheit schon mehrere ausgefallene RAID6 Arrays von HP MSA Systemen im Labor, allerdings ließen sich die gewonnenen Erkenntnisse nicht 1:1 auf den aktuellen Fall übertragen.
Es folgten dutzende Stunden des Reverse Engineerings. Unterschiedlichste Permutationen brachten in den ersten Anläufen leider noch nicht den gewünschten Erfolg. Mit Hilfe multipler Verfahren und eigenhändiger Programmierung konnten unsere Ingenieure schlussendlich die Berechnung dieses Streifens korrekt simulieren und die geretteten Daten wurden dem Kunden schließlich prompt wieder ausgehändigt.