Frage RAID-5: Zwei Festplatten sind gleichzeitig ausgefallen?


Wir verfügen über einen Dell PowerEdge T410-Server mit CentOS und einem RAID-5-Array mit 5 Seagate Barracuda 3 TB SATA-Festplatten. Gestern ist das System abgestürzt (ich weiß nicht wie genau und ich habe keine Logs).

Beim Booten in das BIOS des RAID-Controllers sah ich, dass die Festplatte 1 von den 5 Festplatten als "nicht vorhanden" und die Festplatte 3 als "abgebaut" gekennzeichnet war. Ich zwang Laufwerk 3 zu sichern und ersetzte Laufwerk 1 durch eine neue Festplatte (der gleichen Größe). Das BIOS hat dies erkannt und begonnen, die Festplatte 1 neu zu erstellen - allerdings blieb sie bei% 1 stecken. Der drehende Fortschrittsindikator bewegte sich die ganze Nacht nicht; total gefroren.

Was sind meine Möglichkeiten hier? Gibt es eine Möglichkeit, einen Wiederaufbau zu versuchen, abgesehen von einem professionellen Datenrettungsdienst? Wie können zwei Festplatten gleichzeitig so ausfallen? Scheint übermäßig zufällig. Ist es möglich, dass Datenträger 1 fehlgeschlagen ist, und als Ergebnis Datenträger 3 "nicht synchronisiert wurde?" Wenn ja, gibt es irgendein Dienstprogramm, das ich verwenden kann, um es "synchron" wiederherzustellen?


21
2017-07-22 14:48


Ursprung


Ja, große Sata-Platten neigen dazu, das zu tun. (Der Wiederaufbau von 3 TB dauert viele Stunden, während Sie Doppelfehlern ausgesetzt sind). Das ist also zu erwarten und deshalb wird RAID-5 mit einer solchen Konfiguration absolut nicht empfohlen. - MichelZ
Tatsächlich. In einer idealen Welt sind die Ausfallraten von Laufwerken zufällig verteilt. Praktisch passiert das nicht - sie werden normalerweise aus der gleichen Charge gekauft und den gleichen Belastungen ausgesetzt, was bedeutet, dass alle gleichzeitig das Lebensende treffen. Eine plötzliche Verschiebung des Ladevorgangs kann einige "über den Rand" führen, sogar bevor Sie sich mit den nicht korrigierbaren Fehlerraten auf SATA-Festplatten beschäftigen. Wie auch immer - ich fürchte, die schlechten Nachrichten sind, es sei denn, man kann eines dieser Laufwerke online bekommen, es ist Zeit, die Backups herauszubringen. - Sobrique
serverfault.com/questions/339128/ ... - MichelZ
Ich weiß, dass es jetzt nicht viel hilft, aber nur zur Information - der allgemeine Konsens besteht darin, RAID6 für Laufwerke zu verwenden, die größer als 1 TB sind (am besten, wenn es um 7200 U / min geht). - pauska
RAID 5 gibt Fehlertoleranz, aber es ist eine Kompromissoption - Sie haben N + 1 Ausfallsicherheit, aber wenn Sie große Laufwerke haben, haben Sie ein großes Fenster, in dem ein zweiter Fehler auftreten kann. RAID-6 gibt N + 2 Fehlertoleranz, die allgemein als gut angesehen wird (Dreifachfehlerquoten sind viel niedriger). Sie finden jedoch auch die Fehlerrate von teureren Festplatten (z. B. nicht billige SATA-Laufwerke) - Sobrique


Antworten:


Sie haben einen doppelten Datenträgerfehler. Dies bedeutet, dass Ihre Daten nicht mehr vorhanden sind und Sie eine Wiederherstellung von einer Sicherung durchführen müssen. Aus diesem Grund sollten wir RAID 5 nicht auf großen Festplatten verwenden. Sie möchten Ihren Raid so einrichten, dass Sie immer zwei Festplattenausfällen standhalten können, insbesondere bei großen langsamen Laufwerken.


38
2017-07-22 14:57



Es gibt zwei Probleme mit RAID5. Eine: Wiederherstellungszeit von 3 TB, vorausgesetzt, ein langsames SATA-Laufwerk kann groß sein, wodurch die Wahrscheinlichkeit eines Verbindungsfehlers hoch ist. Die andere ist die nicht behebbare Bitfehlerrate - das Datenblatt der meisten SATA-Laufwerke hat 1/10 ^ 14, was ungefähr 12 TB an Daten entspricht. Bei einem 5-Wege-3B-RAID wird dies fast unvermeidlich, wenn eine Wiederherstellung erforderlich ist. - Sobrique
Ich benutze RAID5 auf meinem 3TB 5-Laufwerk-Array, ich spielte mit einem zweiten Array als eine replizierte Kopie des ersten zu verwenden. Auf diese Weise würde es für mich zum Verlust der Daten erforderlich sein, dass mehr als 1 Platte gleichzeitig auf beiden Arrays fehlschlägt (so dass ich 4 Platten benötigen würde), aber immer noch die große Menge an verfügbarer Kapazität. Nachdem ich das gelesen habe, kann ich jetzt diesen Zeitrahmen für das zweite Array erhöhen. - War
Er hat wahrscheinlich nur einen schlechten Block auf seiner Festplatte3. Ich frage mich wirklich, warum ein professioneller Systemadministrator nie von Kopierwerkzeugen auf Blockebene gehört hat. - peterh
@Wardy, würde nicht Raid 6 geben Sie das? - Basil
Keine sehr hilfreiche Antwort. Sicher, mit einem doppelten Festplattenfehler auf einem RAID 5 ist die Chance auf Wiederherstellung nicht gut. Bei den meisten Doppelplattenausfällen auf RAID 5 handelt es sich jedoch wahrscheinlich nur um einen fehlerhaften Datenträger und einige nicht korrigierte Lesefehler auf anderen Datenträgern. Wenn das der Fall ist, ist die Wiederherstellung der meisten Daten mit den richtigen Tools immer noch möglich. Zeiger auf solche Werkzeuge wären hilfreich. - kasperd


Ihre Optionen sind:

  1. Wiederherstellen von Sicherungen.
    • Sie tun habe Backups, oder? RAID ist kein Backup.

  2. Professionelle Datenwiederherstellung
    • Es ist möglich, obwohl sehr teuer und nicht garantiert, dass ein professioneller Wiederherstellungsdienst Ihre Daten wiederherstellen kann.

  3. Akzeptieren Sie Ihren Datenverlust und lernen Sie von der Erfahrung.
    • Wie in den Kommentaren erwähnt, werden große SATA-Festplatten für eine RAID 5-Konfiguration nicht empfohlen, da während der Neuerstellung ein doppelter Fehler auftreten kann, der das Array zum Fehlschlagen bringt.
      • Wenn es sich um Paritäts-RAID handeln muss, ist RAID 6 besser, und beim nächsten Mal wird auch ein Hot-Spare verwendet.
      • SAS-Festplatten sind aus verschiedenen Gründen besser geeignet, z. B. mehr Zuverlässigkeit, Ausfallsicherheit und niedrigere Raten von nicht behebbaren Bitfehlern, die UREs (nicht behebbare Lesefehler) verursachen können.
    • Wie oben erwähnt, ist RAID kein Backup. Wenn die Daten von Bedeutung sind, vergewissern Sie sich, dass sie gesichert sind und dass Ihre Sicherungen einem Wiederherstellungstest unterzogen wurden.

37
2017-07-22 15:03



Wenn Sie 5 Festplatten haben (wie im OP), und auf einen Hotspare festgelegt sind, würden Sie sicherlich RAID10 über RAID6 nehmen ...? - jimbobmcgee
Nun, für den Anfang - Sie würden 4 Spindeln in einem RAID 1 + 0 verwenden, um 2 Festplatten im Wert von Speicherplatz zu erhalten, so dass eine Festplatte "Ersatz" übrig bleibt. Sie können zwei Fehler tolerieren (zumindest die richtigen zwei). RAID6 würde Ihnen 3 Festplattenplatz geben und zwei Fehler tolerieren (alle zwei). RAID1 + 0 hat eine bessere Leistungsfähigkeit, mit einer geringeren Schreibstrafe und potenziell besserer zufälliger Leseleistung (Lesevorgänge könnten von einer der beiden Spindeln ausgeführt werden). - Sobrique
Für Punkt 2. Datenwiederherstellung. Das Wiederherstellen von Daten aus einem RAID5 kann Sie einfach $ 20.000 kosten. Darüber hinaus ließ OP den Neuaufbau über Nacht laufen und betonte die Festplatte, was eine Wiederherstellung schwieriger oder sogar unmöglich machen kann. Lass dich einfach vorher wissen. Achten Sie darauf, alle Festplatten zu senden. - OmnipotentEntity


Nachdem du ein akzeptiert hast Schlecht Antwort, es tut mir wirklich leid für meine hetzerische Meinung (die solche Arrays schon mehrfach gespeichert hat).

Ihre zweite Failed Disk hat wahrscheinlich ein kleines Problem, vielleicht einen Blockfehler. Dies ist die Ursache, warum die Schlecht Synchronisierungswerkzeug Ihres Schlecht Raid5 Firmware stürzte darauf ab.

Sie können problemlos eine Kopie auf Sektorebene mit einem Low-Level-Disk-Cloning-Tool erstellen (z. B. Gddrescue ist wahrscheinlich sehr nützlich), und verwenden Sie diese Diskette als Ihre neue disk3. In diesem Fall überlebte Ihr Array mit einer geringfügigen Datenbeschädigung.

Es tut mir leid, wahrscheinlich ist es zu spät, denn das Wesen der Orthodoxen antwortet in diesem Fall: "Mehrfaches Versagen in einem Raid5, hier ist die Apokalypse!"

Wenn Sie sehr gute, redundante Raid wollen, verwenden Sie Software-RAID in Linux. Zum Beispiel ist sein Raid Superblock Daten Layout öffentlich und dokumentiert ... Es tut mir wirklich leid, für meine dies eine andere ketzerische Meinung.


23
2017-07-23 13:29



Schade, dass diese Stimmen nach unten gingen, es versucht tatsächlich, dem OP zu helfen, das Durcheinander zu beheben, im Gegensatz zu einigen anderen. +1 - Vality
@Vality es versucht nicht, das Durcheinander zu lösen, es erweitert seine Probleme. Ein Raid5 mit eingebrannten beschädigten Blöcken gibt kein Ende des Schmerzes, da er Integritätsprüfungen bestehen wird, aber regelmäßig abbaut. Auch hätte er keine Ahnung welche Daten korrupt sind. Wenn es so einfach wäre, einen Block zu reparieren, wäre das die Standardlösung. - JamesRyan
@ JamesRyan Ich stimme zu, dass es einige spätere Probleme verursachen wird und ich stimme sogar zu, dass hier grundlegende Probleme bestehen. Es bietet jedoch eine gültige Lösung, wie man einige Funktionen zurückbekommt und da das OP von Datenwiederherstellungsexperten sprach, kann ich nur annehmen, dass sie keine Backups haben, um ihre Daten anderweitig zurückzubekommen. Am Ende wäre diese Lösung nur der erste Teil eines Fixes. Wenn diese Methode das System neu gestartet hätte, würden Sie das Dateisystem wahrscheinlich auf 5 neue Festplatten übertragen und dann noch einmal sichern. - Vality
"Sie könnten problemlos eine Kopie eines Blockkopie-Tools auf Sektorebene erstellen" Ja wirklich Was wollten Sie schreiben? - Arnaud Meuret
@MikeFurlender Ich denke, Hardware ist schneller, aber proprietär und daher spröde, da Sie den gleichen Controller für den Fall benötigen, dass es fehlschlägt. Software-RAID ist unabhängig von der Hardware. Siehe btrfs und zfs. - Martin Ueding


Ein gleichzeitiger Ausfall ist möglich, sogar wahrscheinlich, aus anderen Gründen. Die andere Möglichkeit ist, dass eine der Festplatten einige Zeit früher ausgefallen war und Sie diese nicht aktiv überprüft haben.

Stellen Sie sicher, dass Ihre Überwachung ein RAID-Volume, das im eingeschränkten Modus ausgeführt wird, sofort aufnimmt. Vielleicht hast du keine Option bekommen, aber es ist nie gut, diese Dinge aus dem BIOS lernen zu müssen.


4
2017-07-22 16:17



+1 für die Erwähnung vernachlässigter Überwachung. Es ist wichtig, schon den Schritt "normal" -> "kritisch" zu beachten, nicht den Schritt "kritisch" -> "fehlgeschlagen". Dies gilt ebenfalls für alle anderen Arten von Redundanzen (Backup-Internetleitung, Bier im Keller, Ersatzreifen, ...). - Hagen von Eitzen


Um zu antworten "Wie können zwei Festplatten gleichzeitig so ausfallen?" genau, ich möchte aus zitieren Dieser Beitrag:

Der Kern des Arguments ist dies. Da Festplattenlaufwerke größer geworden sind   und größer (ungefähr verdoppelt in zwei Jahren), hat der URE (nicht behebbarer Lesefehler) nicht   im gleichen Tempo verbessert. URE misst die Häufigkeit des Auftretens von   ein nicht korrigierbarer Lesefehler und wird normalerweise in Fehlern pro gemessen   Bits gelesen. Zum Beispiel impliziert eine URE-Rate von 1E-14 (10 ^ -14) dies   statistisch würde ein nicht behebbarer Lesefehler einmal in jedem auftreten   1E14 Bits gelesen (1E14 Bits = 1,25E13 Bytes oder ungefähr 12 TB).

...

Das Argument ist, dass, wenn Plattenkapazitäten wachsen, und URE Rate nicht   Verbessern Sie mit derselben Geschwindigkeit die Möglichkeit eines RAID5-Wiederherstellungsfehlers   erhöht sich im Laufe der Zeit. Statistisch zeigt er das 2009 in der Scheibe   Die Kapazitäten wären so groß geworden, dass RAID5 nicht mehr sinnvoll ist   für ein sinnvolles Array.

Also, RAID5 war 2009 unsicher. RAID6 wird bald auch sein. Was RAID1 betrifft, habe ich angefangen, sie aus 3 Festplatten zu machen. RAID10 mit 4 Festplatten ist ebenfalls prekär.


2
2017-07-24 09:36



Auch hier handelt es sich bei RAID nicht um eine Backup-Alternative, sondern lediglich um eine "Pufferzone", in der eine Festplatte ausgetauscht werden kann, um verfügbare Daten verfügbar zu halten. Die andere Möglichkeit besteht darin, eine Replikation zu verwenden, bei der zwei Arrays gleichzeitig ausfallen müssen ... viel weniger wahrscheinlich, denke ich. - War
Persönlich mag ich nicht das Mantra, dass RAID kein Backup ist. Das Wörterbuch sagt: "Eine Person, einen Plan, ein Gerät usw., die in Reserve gehalten werden, um bei Bedarf als Ersatz zu dienen." Wenn die Menge an Redundanz nicht ausreicht, wird sie nicht als Ersatz dienen. Wenn Sie sich nicht um die Redundanz kümmern, die RAID bietet, können Sie sie auch nicht verwenden. Da es kein Ersatz für Off-Disk- und Off-Site-Backups ist, ist das eine ganz andere Sache, der ich (natürlich) zustimme. - Halfgaar
Was denken Sie also über diejenigen, die RAID-Stripes ohne Redundanz verwenden? In diesem Fall wird das RAID-Array nur verwendet, um einen Performance-Nutzen zu erzielen, der ein IMO ist, der für mich absolut gültig ist. RAID dient zwei Zwecken: 1. Bereitstellung von Geschwindigkeit durch Gruppierung der Laufwerke oder 2. Bereitstellung eines Sicherheitsnetzes für den Fall, dass n Laufwerke schlagen fehl und stellen sicher, dass die Daten noch verfügbar sind. - War
Jeder, der RAID implementiert, wählt den RAID-Typ, den er je nach Bedarf, Geschwindigkeit, Zuverlässigkeit oder einer Kombination der beiden verwenden möchte. RAID ist jedoch keine Form der Backup-Lösung. - War
Wenn Leute sagen, dass RAID keine Sicherung ist, sprechen sie nicht von Verfügbarkeit. Ich denke, du spielst nur mit Worten. :) - gparent


Thread ist alt, aber wenn Sie lesen, verstehen Sie, wenn ein Laufwerk in einem RAID-Array fehlschlägt, überprüfen Sie das Alter der Laufwerke. Wenn Sie mehrere Festplatten in einem RAID-Array haben und diese älter als 4-5 Jahre sind, besteht die Möglichkeit, dass ein anderes Laufwerk ausfällt. *** Erstellen Sie ein Bild oder Backup **, bevor Sie fortfahren. Wenn Sie denken, dass Sie ein Backup haben, testen Sie es, um sicherzustellen, dass Sie es lesen und wiederherstellen können.

Grund ist, dass Sie Jahre der normalen Abnutzung auf den restlichen Laufwerken legen, während sie volle Geschwindigkeit für Stunden und Stunden drehen. Je größer die Anzahl der 6 Jahre alten Laufwerke ist, desto größer ist die Wahrscheinlichkeit, dass ein anderes Laufwerk durch den Stress ausfällt. Wenn es RAID5 ist, und Sie das Array durchbrennen, großartig, Sie haben ein Backup, aber ein 2TB-Laufwerk dauert 8 - 36 Stunden, um abhängig von der Art des Raid-Controller und andere Hardware wiederherzustellen.

Wir ersetzen routinemäßig die gesamte RAID-Struktur auf Produktionsservern, wenn alle Laufwerke alt sind. Warum war es Zeit, ein Laufwerk zu ersetzen, dann warten Sie, bis das nächste an einem Tag, einer Woche, einem Monat oder zwei fehlschlägt. So billig wie Laufwerke sind, ist es einfach nicht die Ausfallzeit wert.


2
2018-02-01 20:30





In der Regel können Sie beim Kauf von Laufwerken von einem seriösen Reseller anfordern, dass die Laufwerke aus unterschiedlichen Chargen stammen, was aus den oben genannten Gründen wichtig ist. Als nächstes gibt es genau das, warum RAID 1 + 0 existiert. Wenn Sie 6 Laufwerke in RAID 1 + 0 verwendet hätten, hätten Sie 9 TB Daten mit sofortiger Redundanz, wo kein Wiederaufbau eines Volumes notwendig ist.


1
2017-07-22 16:43



Wo ist der Beweis, dass der Teil über die Verwendung von Antrieben aus verschiedenen Chargen alles andere als ein städtischer Mythos ist? Außerdem schützt RAID 1 nicht auf magische Weise davor, während des Neuaufbaus in unlesbare Sektoren zu gelangen. Wenn Sie Schutz dagegen haben wollen, gehen Sie entweder mit RAID 6 oder mit RAID 1 mit 3 Spiegeln (ein bisschen teuer). - kasperd
@ Kasperd Ich denke, dass die Frage, die den ersten Teil Ihres Kommentars bildet, ähnlich ist, obwohl offensichtlich nicht genau dasselbe wie, Sollte ich eine Festplatte eines neuen RAID 1-Paares "einfahren", um die Wahrscheinlichkeit einer ähnlichen Ausfallzeit zu verringern?. - α CVn