08. April 2014
Fünf defekte RAID-Systeme innerhalb des vergangenen Wochenendes – von absoluter Sicherheit vor Datenverlust kann hier wohl keine Rede sein. Die Kunden sind verzweifelt, der Betrieb steht still! Meist handelt es sich um große Storages mit virtualisierten Servern, somit sind Datenbank, eMails sowie Dateiablagen offline.
Doch wie kann es sein, dass ein RAID, welches Redundanz verspricht, ausfällt? Den IT-Administratoren, EDV-Spezialisten und Geschäftsführern fehlt meist das Verständnis dafür: Das RAID-System – oft ein teures Enterprise-Storage – zeigte bis dato keine Anzeichen eines Defekts.
Gerade in letzter Zeit häufen sich Datenverluste durch den multiplen Ausfall von Festplatten. Meistens haben die Festplatten in den Storages den gleichen Lebenslauf: Produktion, Transport sowie Betriebsumgebungen sind für alle im RAID vorhandenen Datenträger identisch.
Defekte können bereits in der Produktion beim Hersteller auftreten. Immer öfter stellen wir in unseren Labors fest, dass ganze Chargen von Festplatten Serienfehler aufweisen. Diese können im Bereich der Firmware (interne Software einer Festplatte) oder in der Mechanik sowie Elektronik liegen. Da in RAID-Systemen nahezu immer Festplatten derselben Charge verbaut werden, können etwaige Serienfehler innerhalb eines kurzen Zeitraums auftreten. Fällt eine Festplatte im RAID-Verbund aus, ist die Wahrscheinlichkeit des Ausfalls weiterer Datenträger überdurchschnittlich hoch. Gerade in der Nacht oder am Wochenende wird der erste Defekt oft nicht bemerkt, der zweite Datenträger stirbt und das RAID5 ist nicht mehr verfügbar.
Eine weitere Ursache für den nahezu gleichzeitigen Ausfall von mehreren Festplatten ist der Transport der Datenträger von der Fabrik bis zum Server- oder RAID-Einsatzort. Durch überhitzte Container, Erschütterungen oder andere Unwelteinflüsse können bereits Schäden entstehen, die später im Betrieb zum Ausfall führen. Wiederum gilt: Selbe Charge, identische Probleme.
Und nicht zuletzt spielt der laufende Betrieb eine wesentliche Rolle: Erschütterungen oder Überhitzung können die Lebenszeit der Festplatten im RAID-Verbund wesentlich verkürzen, wiederum mit der gleichen Auswirkung auf alle Datenträger.
Daraus folgt, dass der Ausfall eines RAID-Systems durchaus wahrscheinlicher ist, als man gemeinhin annehmen würde. Vor allem wenn ein Problem mit einem Datenträger auftritt, ist es realistisch, dass innerhalb kurzer Zeit weitere Probleme bei anderen Festplatten im Verbund folgen werden.
Als Lösungsansatz hören wir oft von unseren Kunden, nachdem wir diese ausführlich auf die Problematik aufmerksam gemacht haben, einfach Datenträger verschiedener Hersteller in RAID-Systemen einzusetzen. Dazu würden wir prinzipiell eher nicht raten, da es zu Performance- und Kompatibilitätsproblemen kommen kann. Die einzig sinnvolle Lösung ist wie immer eine Datensicherung anzulegen. Auf ein RAID-System alleine darf man sich nicht verlassen.
Zum Schluss die gute Nachricht: Auch beim Ausfall mehrerer Festplatten können unsere Techniker noch die Daten des RAID-Systems rekonstruieren.