Frage Sollte ich eine Festplatte eines neuen RAID 1-Paares "einfahren", um die Wahrscheinlichkeit einer ähnlichen Ausfallzeit zu verringern?


Ich richte ein RAID1-Array von zwei neuen 4TB-Festplatten ein.

Ich habe schon früher gehört, dass die gleichzeitige Anschaffung eines RAID1-Arrays mit neuen identischen Festplatten die Wahrscheinlichkeit erhöht, dass sie zu einem ähnlichen Zeitpunkt ausfallen würden.

Ich erwäge daher, eine der Festplatten für eine gewisse Zeit (vielleicht ein paar Wochen) allein zu verwenden, um die Wahrscheinlichkeit zu verringern, dass beide innerhalb kurzer Zeit versagen. (das unbenutzte Laufwerk wird in einer Schublade getrennt)

Scheint dies ein vernünftiger Ansatz, oder verschwende ich eher meine Zeit?


19
2018-03-17 12:45


Ursprung


Es ist ein oft gehörte Anspruch, aber ich habe noch keine Dokumentation zu sehen, die es unterstützt. Ein wesentlich realeres Risiko besteht darin, dass eine Ihrer Festplatten einige schlechte Sektoren entwickelt, die für eine Weile unbemerkt bleiben. Aber sobald die andere Festplatte ausfällt, werden Sie diese fehlerhaften Sektoren während der Neuerstellung bemerken. - kasperd
Wenn Sie mit Dutzenden von Laufwerken arbeiten, könnte es sich lohnen, das Sourcing aus einigen Stapeln zu betrachten. Bei einem Laufwerk mit zwei Laufwerken ist es nicht die Mühe wert, dies zu tun. Die Ausfallrate ist nicht so ähnlich oder vorhersehbar ... man könnte 3 Monate dauern, die andere könnte 5 Jahre dauern. - jlehtinen
Ich persönlich würde nicht mit nur zwei Fahrten überfallen. Wenn Sie mehr Laufwerke verwenden, erhalten Sie eine bessere Kapazität. Zum Beispiel würden 3 Laufwerke im Gegensatz zu 2 Laufwerken 8 TB Gesamtspeicher ergeben, was nur 4 TB ergibt. Jedes Laufwerk kann in einem Dreier-Set fehlschlagen, und wenn es aus drei Quellen kommt, sind die Ausfallwahrscheinlichkeiten zur gleichen Zeit niedrig. - phyrfox
@phyrfox - RAID-5 (und -6) hat andere Leistungsmerkmale als RAID-1, die möglicherweise nicht mit seiner Anwendung kompatibel sind. Bei großen Laufwerken (vor allem bei Consumer Quality-Laufwerken) würde ich definitiv RAID-6 verwenden, um vor einem zweiten Plattenfehler zu schützen, während ich das Array nach einem einzigen Plattenausfall neu aufbaute. Ich habe ein 5-Festplatten-RAID-6-Array für 2 Jahre mit einer Reihe von Laufwerken, die zur gleichen Zeit gekauft wurde laufen - eine Festplatte fehlgeschlagen einen Monat in, alle anderen haben kein Problem gezeigt. - Johnny
@phyrfox RAID5 verringert die Kosten pro Megabyte, erhöht jedoch die Wahrscheinlichkeit, dass ein Fehler auftritt, da mehr Laufwerke ausfallen. - Caltor


Antworten:


Es ist Zeitverschwendung.

Sie werden nicht in der Lage sein, Fehler zu verursachen oder die Antriebe in einer sinnvollen Weise zu belasten. Sie haben RAID, und das ist ein guter Anfang. Stellen Sie nur sicher, dass Sie über eine Überwachung verfügen, um auftretende Fehler tatsächlich zu erkennen, und sichern Sie sie vor Katastrophen.


16
2018-03-17 13:00



Stimme für konventionelle HDS, aber für ssds ist es eine ganz andere Geschichte. Dachte, das war es wert, jetzt notiert zu werden, bevor 4tb-ssds billig und verfügbar werden und die Leser nicht erkennen, dass wir hier über das Drehen von Rost reden, aber vielleicht werden sie dann schon mehr schreiben. - symcbean
Ja - sicherlich wird jede "Enterprise" -Anwendung schon einmal getestet worden sein, um es über die frühen Lebensfehler auf der Badewannenkurve hinaus zu bekommen. Obwohl ich weiß, wenn Sie ein Paar Generatoren kaufen, ist der Ratschlag, 66% zu 33% zu wechseln, weil auf diese Weise beide nicht gleichzeitig abnutzen. Bei Antrieben hat die MTBF jedoch eine recht große Standardabweichung, so dass sie weniger problematisch ist. - Sobrique


Es kann besser sein, verschiedene Marken oder eine Reihe von Festplatten zusammen zu verwenden, wenn Sie sich darüber Sorgen machen.

ich haben gesehen Scheiben von ähnlicher Art und Alter scheitern in Clustern, also IMHO ist es kein städtisches Leend.


5
2018-03-17 13:27



Ich habe es auch, aber es ist auf zwielichtige Firmware und nicht auf MTBF bezogen. - Sobrique


Große Frage - Im Gegensatz zu Autoscheinwerfern ist dies jedoch Zeitverschwendung. Die MTBF-Bewertung [mittlere Zeit zwischen Ausfällen] für 4 GB-Laufwerke [WD Red in diesem Beispiel] beträgt 1.000.000 Stunden. Die Wahrscheinlichkeit, dass zwei Fahrten gleichzeitig in einem Spiegel schlecht werden, ist äußerst selten. Als ich gesehen habe, dass dies passiert, war es, weil das erste Laufwerk fehlgeschlagen ist, ohne dass es jemand bemerkt hat. Nützlicher zum Schutz mit Backups als das lästige Brennen - zuerst in einem Laufwerk. Wenn Sie die Laufwerkstypen mischen, stellen Sie sicher, dass die Laufwerke die gleiche Geschwindigkeit haben. Wenn Sie paranoid sind, dann ist RAID 10 für Sie.


2
2018-03-17 21:00



MTBF geht davon aus, dass die Festplatten unabhängig sind und sich nicht im selben RAID-Set befinden. Es gibt andere Gründe dafür, dass es Zeitverschwendung ist, aber eine lächerliche Zahl, die vom Hersteller freigegeben wurde, die eine schwache Korrelation mit der Realität hat, gehört nicht dazu. - HopelessN00b
Wenn eine HDD wirklich das gesagt hätte bedeuten Zeit zwischen Ausfällen, warum sind die Gewährleistungsfristen so kurz? 1M Stunden sind 114 Jahre, geben oder nehmen. Die WD Red Pro (weil ich eine aus der Menge ausgewählt) sieht aus, mit einer fünfjährigen Garantie zu kommen. Selbst wenn du es nimmst Hälfte Die mittlere Zeit bis zum Scheitern, Western Digital glaubt immer noch nicht, dass es für mehr als ungefähr zuverlässig sein wird ein Zehntel der angegebenen MTBF-Periode. Nun, was würdest du eher glauben wollen; irgendeine zufällige Statistik ohne Verpflichtungen, oder wo das Geld wirklich ist? (Garantieerstattungen, Rückerstattungen, Umbuchungen und Ersatz kosten echtes Geld.) - α CVn
@ MichaelKjörling: Wenn sie die MTBF garantierten, würden sie über 50% (ja, überlanges Ende der Distribution) der Laufwerke unter Garantie ersetzen. Sicher sollten Sie schauen, wo das Geld ist, aber ich sehe keinen Grund zu glauben, dass die MTBF nicht eine Größenordnung länger als die Garantie ist, und mehrere zu glauben, dass es ist. - Ben Voigt
@ MichaelKjörling Ich habe Hardware mit einer veröffentlichten MTBF von 100k Stunden gesehen, die nach 1k Stunden Betriebsdauer durchgehend abgenutzt wäre. Die nächste Generation der Hardware hatte eine veröffentlichte MTBF von 200.000 Stunden. Als die erste Charge der neuen Hardware 48 Stunden lang in Betrieb war, waren mehr als 50% von ihnen ausgefallen. - kasperd


Während es in der Theorie Sinn macht, unterstützen die Daten nicht die Notwendigkeit work in deine Fahrt.
Nicht nur, dass ein paar Wochen nicht wirklich Wirkung zeigen, die Fehlerquote funktioniert nicht wirklich, wenn man nur zwei Laufwerke betrachtet.

Während es einige Hinweise auf mehr gab normalisierte Fehlerraten wenn es um Laufwerke des gleichen Modells geht.

Die meisten altersbedingten Ergebnisse werden beeinflusst durch   Vintages fahren ...   Interessanterweise ändert dies unsere Schlussfolgerungen nicht. Im   Im Gegensatz zu altersbezogenen Ergebnissen stellen wir fest, dass alle Ergebnisse   Im Rest des Papiers wird der Populationsmix nicht signifikant beeinflusst. (Hervorhebung von mir)

Daher können altersbedingte Ausfälle, die nur eine kleine Teilmenge von Fehlern darstellen, in gewisser Weise mit dem Antrieb von Jahrgängen korreliert sein. Aber die meisten Fehler können nicht.
Wenn Sie die Gesamtfehlerquoten addieren, die für ein bestimmtes Jahr bei 8% liegen können, sind die Chancen für beide Laufwerke im selben Jahr gering, sie sind in der gleichen Woche vernachlässigbar.
Und das ist, wenn Sie jede mögliche Ursache des Scheiterns betrachten, nicht nur altersbedingte Ausfälle.

Wenn Sie das Risiko minimieren möchten, aber zwei Laufwerke eines anderen Jahrgangs.
Wenn Sie Versicherungen wollen, kaufen Sie eine Versicherung.
Und wie Ewwhites Antwort bereits angegeben, Backups und Monitoring sind ein Muss.


1
2018-03-19 10:01





Dies ist in der Regel ein Argument für SSDs mehr als HDDs meiner Erfahrung nach. SSDs haben begrenzte Schreibzyklen. Wenn Sie also ein RAID1 mit zwei SSDs desselben Modells verwenden, sollten beide Schreibzyklen fast zur gleichen Zeit ausgeführt werden.

Wie für allgemeine Fehler, es sei denn, Sie haben ein ernstes Problem wie Massenschwingungen, statische oder hohe Hitze; Ich vermute nicht, dass Sie sehen, dass 2 von 2 Festplatten gleichzeitig ausfallen.

Ein Hauptproblem bei RAID1 (und RAID10) mit größeren Laufwerken wie 4 TB ist die Neuerstellung. Wenn bei einem Laufwerksfehler ein Laufwerk ausfällt, ist das Laufwerk bei einem Laufwerkspiegel mit zwei Arbeitslasten belastet. Dann, wenn Sie neu erstellen, wird dieses Laufwerk noch mehr geladen. Wenn etwas mit dem Laufwerk nicht in Ordnung ist, ist es wahrscheinlich, dass es unter diesen Bedingungen nicht funktioniert, insbesondere wenn man in Betracht zieht, dass der Wiederaufbau eines 4-TB-Spiegels unter Last sehr lange dauern kann.


0
2018-03-18 00:24





Sie können, aber es wird nicht zu viel helfen.

Wenn zum Beispiel eine Nadel in der Eingangsleistung vorhanden ist, wird dieselbe Nadel beide Scheiben zerstören.

Was wichtig ist: Sie müssen ein gutes Backup haben. Raid macht kein gutes Backup aus. Eigentlich, wenn Sie ein gutes Backup haben, ist vielleicht ein Spiegelung Raid nicht sicher erforderlich (wenn Sie einen Systemausfall einmal um 2-3 Jahre tolerieren können).


0
2018-03-18 05:11



Bei RAID geht es um die Verfügbarkeit, nicht um das Sichern von Daten. Der Punkt besteht darin, das System verfügbar zu halten, wenn ein Laufwerk ausfällt, um die Daten auf dem Laufwerk nicht zu schützen. - HopelessN00b
@ HopelessN00b Dies ist genau das, was ich versucht habe, in der Antwort zu erklären, vielleicht war ich nicht genug klar? - peterh
Dein Satz am Ende verwässert das Wasser. - HopelessN00b
@ HopelessN00b Raid schützt auch vor Datenverlust durch Festplattenfehler. Dies führt oft zu der falschen Schlussfolgerung, dass es als Backup verwendet werden kann. Bei der Verwendung von RAID und der Verwendung von Backups handelt es sich jedoch um situationsabhängige Dinge. Es gibt Fälle, in denen selbst eine professionelle Sysadm-Umgebung nicht beide benötigt. Meiner Meinung nach ist das Ziel nicht zu erzwingen beide zu einem unerfahrenen sysadm, aber um es klar zu machen, dass das Spiegeln der Platten und das Sichern seiner Daten verschiedene Lösungen für verschiedene Probleme sind. - peterh