Frage RAID-6: Zwei tote Laufwerke gleichzeitig oder einzeln ersetzen?


Wir haben ein RAID-6 mit 16 Laufwerken und drei problematischen Laufwerken. Zwei sind bereits tot und der dritte gibt SMART Warnungen. (Vergiss nie, wie es in einem so schlechten Zustand wurde.)

Offensichtlich wollen wir die toten Laufwerke vor denen, die noch funktionieren, ersetzen, aber ist es besser:

  1. Ersetzen Sie ein totes Laufwerk, lassen Sie das RAID neu erstellen, ersetzen Sie dann das andere und lassen Sie es erneut erstellen. oder

  2. Ersetzen Sie beide Laufwerke gleichzeitig und lassen Sie beide gleichzeitig neu erstellen?

Um es anders auszudrücken, werden wir schneller zu einem Zustand der Redundanz zurückkehren, indem wir ein oder zwei Laufwerke wieder einführen? Wird der Neuerstellungsprozess durch die gleichzeitige Neuerstellung von zwei Laufwerken verlangsamt?

Wenn es darauf ankommt, ist der Controller ein 3ware 9650SE-16ML.


21
2017-08-30 17:43


Ursprung


Überquere alles, was du bekommen hast und schicke deiner Lieblings-Gottheit eine große Spende! - Iain
Kann ich nur eine Frage dazu stellen; Können Sie uns bitte die GENAUE Marke und das Modell der Festplatte in diesem Array mitteilen? Wenn mein Verdacht richtig ist, können Sie diese Frage sehr wohl als einen nützlichen Bezugspunkt für zukünftige Benutzer betrachten, die bestimmte Fragen stellen. Vielen Dank. - Chopper3
Ich kenne das genaue Modell nicht und kann den Controller nicht fragen, um herauszufinden, weil jemand anderes entschied, dass der Computer ausgeschaltet werden sollte, bis die Ersatzlaufwerke dort ankommen. Aus Daten, die vorher erfasst wurden, kann ich sagen, dass sie 1 TB Seagates mit Serien sind, die mit 9QJ beginnen. - Warren Young
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Sie haben es ausgeschaltet? Schlechtes JuJu mein Freund! Es ist dieses Mal zu spät, aber allgemein gesagt, die Laufwerke herunterzufahren (besonders wenn sie älter sind und lange laufen), gibt ihnen die Möglichkeit, Fehler beim Hochfahren zu verursachen (und der Controller sagt "Ja, dieses Laufwerk ist jetzt auch gebraten ") - voretaq7
@ Voretaq7: Ich habe einmal alle Festplatten von einem MSA-20-Box in die Hölle geschickt, indem Sie es nach ca. 3 Jahren Betriebszeit und Dauerbetrieb herunterfahren. Werde das nie wieder machen :-) - karatedog


Antworten:


!!!!! EIN !!!!!

Tun Sie eins nach dem anderen, ernsthaft Kumpel, denken Sie nicht daran, dies auf eine andere Art und Weise zu tun.

Alles andere wird Ihre vollständigen Fähigkeiten zur Systemwiederherstellung testen.


28
2017-08-30 17:53



Die zwei Punkte, die ich zu dieser Antwort hinzufügen würde, sind (1) GEBET (zu welcher Gottheit Sie auch mögen) und (2) ÜBERWACHUNG Sobald Sie alles wieder in einen sicheren Zustand gebracht haben (damit Sie wissen, wann Laufwerke in der Zukunft ausfallen und das Problem beheben können, bevor Sie zweieinhalb Fehler haben. Optional können Sie auch ein Hot-Spare im Array für die Zukunft konfigurieren. - voretaq7
Oder verwende RAID 10 </ stockanswer> - Chopper3
Re: Gebet, kein Kommentar. :) Re: ÜberwachungIch befürworte das seit Jahren. vielleicht wird dies ein Feuer unter jemandem anzünden. Betreff: RAID-10zu viele Daten in einem Angebotsmarkt; Als 3 TB Festplatten herauskamen, haben wir die Redundanz nicht verdreifacht, wir haben die Anzahl der Festplatten um 1/3 reduziert. Seufzer. Re: heiße ErsatzteileWir tun das jetzt, da Laufwerke groß genug sind, um es zu erlauben, aber dieser spezielle Server war 16 Laufwerke in einem Laufwerk mit 16 Laufwerken, wenn 1 TB Laufwerke die größten waren, die wir bekommen konnten, und wir wirklich alle 14 verfügbaren TB benötigten. Zu einem System mit 24 Laufwerken zu gehen, hätte nicht funktioniert. siehe vorher. :) - Warren Young
Wenn die Laufwerke bereits ausgefallen sind, gibt es keinen Grund, sie herumzuhalten - ich würde eher erwarten, dass zwei aufeinanderfolgende Neuerstellungen für die anderen Laufwerke stressiger sind als eine einzige. - Simon Richter
+1, dies. Während zwei aufeinanderfolgende Neuerstellungen mehr Stress hinzufügen und eher dazu führen, dass das dritte Laufwerk fehlschlägt, bevor Sie beide beenden, ist auch eine schnellere Neuerstellung möglich. Wenn das marginale Laufwerk während der Neuerstellung der zweiten Festplatte ausfällt, bleiben Sie trotzdem online. Der schnellste und sicherste Weg zu einem fehlertoleranten Zustand ist also einer nach dem anderen. - Joel Coel


Haben Sie gute, aktuelle Backups? Wenn nicht, glaubst du, du kannst sie in angemessener Zeit bekommen?

Ich wäre ehrlich besorgt, wenn ich die fehlerhafte Festplatte während einer Neuerstellung offline stolpern würde - wenn Sie bereits SMART-Fehler haben, sind Sie mehr als halbwegs da.

Mein Vorschlag wäre, Ihre Backups zu bestätigen und dann ein Laufwerk nach dem anderen wiederherzustellen, um zu versuchen, in einen Zustand zurückzukehren, in dem Sie den mit SMART-Fehlern behafteten ersetzen können (tote Laufwerke zuerst, Soft-Fehler zuletzt).

Wenn Sie keine Backups haben, ist es ein Mist-Shooting: Die Sicherung kann genügend weiche Fehler erzeugen, um das marginale Laufwerk als fehlgeschlagen zu markieren, oder es könnte versuchen, eine Wiederherstellung durchzuführen.


14
2017-08-30 17:55



Die meisten oder alle Daten in diesem Array sind eine Art Cache, um zu vermeiden, dass Terabytes von Daten wiederholt über eine langsame Verbindung abgerufen werden müssen. Diese Cachedaten sind alle austauschbar, entweder durch erneutes Herunterladen über Monate (einmal) oder durch Versenden an eine Site, die von einem anderen Array kopieren kann. Also, Backups sind nicht das Problem. Was wir verhindern wollen, indem wir das Array speichern, ist die Zeit bis zu Wochen, in der der Server den Server an ein Service-Depot verschicken, das Array neu füllen und zurückschicken muss. - Warren Young
In diesem Fall ist das, was @ chopper3 sagt, ziemlich das Gesetz des Landes: Bauen Sie ein Laufwerk nach dem anderen auf und BETREIBEN WIRKLICH WIRKLICH HART, dass Sie das Grenzlaufwerk nicht offline mit der zusätzlichen Leselast stolpern. - voretaq7
Puh - froh, es zu hören. - Chopper3


Meine 0,02. $

Da der Server bereits offline ist, führen Sie ddrescue auf dem Laufwerk aus, das gerade fehlschlägt, um es auf ein anderes normales Laufwerk zu klonen.

Dann legen Sie stattdessen das neue, vernünftige Laufwerk in das Array. Wenn das Klonen erfolgreich ist, vermeiden Sie das Risiko, dass das Laufwerk während 2 Neuerstellungen fehlschlägt.


-1
2018-06-26 06:01



Es ist ein Hardware-RAID-Controller, die einzelnen Festplatten sind nicht adressierbar. - Chopper3
Ich frage mich, ob es besser oder schlechter ist, eine Kopie von drescue zu machen, als dass der Hardware-Raid seinen Schlag auf die 1 Platte macht. Sicherlich neigen Raid-Controller dazu, Festplatten schneller kaputt zu machen als ddrescue, also könnte es sich lohnen. (Die Tatsache, dass es hinter einem Überfall ist, spielt keine Rolle, wenn Sie es einfach zu einer Dockingstation oder ähnlichem entfernen. - SvennD