Frage Hohe Ausfallrate großer Laufwerke?


Ich habe vor kurzem einen Server mit 5x 1TB Laufwerken eingesetzt (ich werde ihre Marke nicht erwähnen, aber es war eine der großen zwei). Ich wurde zunächst davor gewarnt, Laufwerke mit großer Kapazität zu bekommen, da ein Freund mir sagte, dass sie eine sehr niedrige MTBF haben, und ich wäre besser, mehr Laufwerke mit kleinerer Kapazität zu bekommen, da sie nicht an das Limit getrieben werden Technologie kann damit umgehen.

Seither sind drei der fünf Festplatten ausgefallen. Glücklicherweise war ich in der Lage, das Array zu ersetzen und neu aufzubauen, bevor die nächste Festplatte fehlschlug, aber es hat mich sehr sehr beunruhigt.

Was sind deine Gedanken? Habe ich sie nur in einer schlechten Partie bekommen? Oder sind Datenträger mit neuerer / höherer Kapazität häufiger als bewährte Datenträger ausgefallen?


24
2018-06-09 09:44


Ursprung


Warum erwähnen Sie die Marke nicht? Ich denke, Ihre Charge war 7200.11 Cudas, die bekannt sind, eine frühe Tod Tendenz zu haben. - Dani
Eigentlich waren sie Western Digitals ... - Mark Henderson♦
Nur für den Rekord, ich nahm alle von ihnen zurück und bekam alle neuen, und sie laufen jetzt seit zwei Monaten ohne irgendwelche Probleme überhaupt. - Mark Henderson♦
Ich hatte eine ähnliche Erfahrung. 16 1,5 TB Laufwerke. In den ersten 4 Monaten ist 4 hart ausgefallen. In den nächsten drei Jahren ist ein Soft fehlgeschlagen. - David Schwartz


Antworten:


Sie haben wahrscheinlich eine schlechte Charge. Ich bin deshalb nervös, weil ich Arrays, die aus Festplatten des gleichen Stapels stammen, aus diesem Grund bereitstellen muss - sie haben wahrscheinlich eine ähnliche Lebensdauer, was es sehr spannend macht, Ersatz zu erhalten, wenn ein Fehler auftritt.

Es ist nicht ausgeschlossen, dass es bei den Laufwerken einen Konstruktionsfehler gibt. Allerdings ist das Internet in der Regel voller Beschwerden über die Festplatte, wenn wirklich etwas nicht stimmt, im Gegensatz zu den üblichen Hintergrundgeräuschen, die man bei allem findet.


19
2018-06-09 10:08



+1 Versuchen Sie entweder Ihre Käufe, die Quelle von verschiedenen Händlern oder Mix-Marken, um dies zu erleichtern. - Rob Allen
Oder Sie können es mildern, indem Sie Laufwerke "einbrennen", die zur selben Zeit von demselben Ort stammen. Führen Sie ein schreibintensives Programm für mehrere Stunden / Tage gegen sie aus; Staffelungsdauern, um ungleiche Alterung zu simulieren. Ich habe ein einfaches Programm namens DriveTest erstellt, das pseudozufällige Daten ausgibt, sie dann zurück liest und verifiziert, um "einzubrennen" und gleichzeitig ein einfaches Test-Desk zu erstellen. Dieser Tipp wird nicht für SSDs empfohlen. - rkagerer


Diese Frage ist schwer zu beantworten, es sei denn, Sie verfügen über die Ressourcen einer großen Organisation. Sehen Google untersucht Festplattenfehler.

Bei einem bedeutenden Kauf von Festplatten werde ich die grobe Festplattengröße mit den niedrigsten Kosten pro Byte bestimmen, die im Allgemeinen eine Generation älter als die neueste ist. Dies macht Sinn, dass sie die Zuverlässigkeit dieser Generation verbessern.


13
2018-06-09 09:58



1.5 zu 2 TB ist die blutende Kante gerade, also würde 1TB Ihre Kriterien nicht erfüllen? Sie sind ziemlich billig. - Mark Ransom
Sehr guter Punkt. - Knox


Mehr Platten + mehr Köpfe bedeuten höhere Ausfallwahrscheinlichkeit.

Nimm zwei gebräuchliche WD-Festplatten

640 GB = zwei Platten
1 TB = drei Platten

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Dieser zusätzliche Plattenteller = mehr Lärm, mehr Stromverbrauch, mehr Wärme, langsamere Betriebsbereitschaft, anfälliger für Stoßschäden und mehr Vibrationen.

Wenn sie das gleiche Laufwerksdesign mit nur einem Platter machen würden, hätte es noch bessere Spezifikationen. In diesem Fall handelt es sich um Laufwerke der Consumer-Klasse, jedoch handelt es sich um High-End-Consumer-Laufwerke mit doppeltem Cache und einer 5-Jahres-Garantie. Sie sehen ähnliche Berechnungen, wenn Sie die Dokumentation einer Marke oder eines Stils einer herkömmlichen Festplatte (sich drehende Platten) genau betrachten. Es ist nur eine Frage der Physik, dass mehr Platten eine Festplatte weniger zuverlässig machen.

Jeff Hengesbach hatte auch recht, als er sagte

Die Hauptsorge bei "großen" Laufwerken   ist die Wiederherstellungszeit bei einem Fehler   tritt ein. Je größer der Antrieb, desto mehr   länger der Wiederaufbau, je größer der   Fenster für zusätzlichen Laufwerksfehler   und möglicher Verlust des Arrays. Mit   "groß" treibt den Geschäftswert von   Verfügbarkeit sollte ein Level bestimmen   akzeptables Risiko (Array-Verlust), die   wird Ihre RAID-Level-Auswahl fahren   und Laufwerkszählung (Mehr Laufwerke = mehr   Chancen eines Laufwerksversagens).

fügen Sie eine kleine Dosis Graeme Perrow hinzu

Eine Fahrt mit fünfzig Millionen Sektoren hat   zehnmal die Chance, schlecht zu sein   Sektor als ein Laufwerk mit fünf Millionen   Sektoren. Ich nehme die Ausfallrate an   unter großen Antrieben und kleinen Antrieben ist   das gleiche hier, das ist wahrscheinlich nicht ein   gute Annahme

Mehr Platten = schlecht
Mehr Speicherplatz ist eine gemischte Tasche. Vor- und Nachteile sind zahlreich.
Mehr Sektoren sind mehr Chance für Fehler. Nicht unbedingt linear im Maßstab, aber definitiv ein Faktor.

Wenn Sie nicht mehr Platz als Zuverlässigkeit benötigen, würde ich vorschlagen, bei Single-Platter- oder Dual-Platter-Laufwerken zu bleiben. Es braucht Forschung und in einigen Fällen Glück, um zu wissen, was Sie bei der Bestellung von Laufwerken bekommen werden, da einige Hersteller nicht nur die Anzahl der Platten vermeiden, sondern auch mehr als ein Laufwerk unter derselben Teilenummer verkaufen.

Nehmen Sie zum Beispiel die WD3200AAKS, es gibt eine Single-Platte 320 GB Version und eine Dual-Platte 320 GB Version (160 GB x 2). Darüber hinaus gibt es mehrere Etiketten und Laufwerksgehäuse, so dass Sie nicht einfach auf die Festplatte schauen können und wissen, welche Platte darin ist. Der einzige Weg zu wissen ist, online zu suchen, um zu wissen, dass WD3200AAKS-00B3A0 und WD3200AAKS-75VYA0 Ihnen sagen, was Single-Platter ist, aber kein Händler wird Ihnen sagen, was Sie bekommen.


10
2017-10-08 13:55



Beeindruckend. Das ist etwas tiefgründiges Zeug! Vielen Dank! Ich hatte noch nicht einmal über die Anzahl der beweglichen Teile (Platten) nachgedacht. - Mark Henderson♦


Ich glaube, dass eine höhere als die normale Ausfallrate eine neue Technologie anzeigt. Mir wurde immer gesagt, dass ich nie das erste Modelljahr eines Autos kaufen soll, warten Sie, bis sie die Käfer ausarbeiten. Ich würde sagen, das Gleiche gilt wahrscheinlich für viele andere Dinge, einschließlich Festplatten.


3
2018-06-09 10:00



Ich kann die ganze Autoanalogie bestätigen (Autoanalogien gehen niemals in die Irre, oder?). Ich gebe zu, ich war in Eile und habe es überhaupt nicht richtig recherchiert, und ich bezahle den Preis jetzt! - Mark Henderson♦


Ich bin mir nicht sicher, ob es richtig ist zu sagen, dass "große" Festplatten eine höhere MTBF haben oder nicht. Ich habe ein großes Namensystem mit einer Handvoll von 750 GB-Laufwerken und in den letzten 2 Jahren ist keines ausgefallen (750 war vor 2 Jahren "groß"). Aber ich kenne auch ein großes Namenssystem, das erstellt wurde, als 250 GB groß waren und das Array einige Male gefallen ist. Die MTBF-Debatte ist etwas wie ein heiliger Krieg.

Das Hauptproblem bei "großen" Laufwerken ist die Wiederherstellungszeit, wenn ein Fehler auftritt. Je größer das Laufwerk, desto länger die Neuerstellung, desto größer das Fenster für zusätzlichen Laufwerksausfall und möglichen Verlust des Arrays. Bei "großen" Laufwerken sollte der Geschäftswert der Verfügbarkeit ein akzeptables Risiko (Array-Verlust) bestimmen, das die Auswahl des RAID-Levels und die Anzahl der Laufwerke bestimmt (Mehr Laufwerke = mehr Chancen auf Laufwerksfehler).

Business SATA / RAID hat sich in den letzten Jahren entwickelt. Ich denke nicht, dass die großen Namen es anbieten würden, wenn sie wüssten, dass es ein großes Support-Problem oder eine Quelle von Kunden-Enttäuschungen sein würde. Ich wäre neugierig auf Ihre Zuverlässigkeit, wenn Sie jetzt einen Teil des ursprünglichen Stapels ersetzen.


3
2018-06-09 11:23





Befinden sich alle auf demselben Computer oder Festplattencontroller? Du hast gesagt, du musst das Array neu erstellen. Wenn dies der Fall ist, dann vielleicht ist etwas mit dem Controller, der Stromversorgung oder dem Speicher fehlerhaft. Wenn nicht, würde ich auch einen fehlerhaften Stapel von Laufwerken erraten. Es kann auch zu Kompatibilitätsproblemen mit bestimmten Laufwerken kommen, die Sie mit diesem bestimmten Controller verwenden.

Außerdem frage ich mich, wenn Leute sagen, dass größere Festplatten eine höhere MTBF haben, wie das berechnet wird. Nehmen wir an, Sie haben 2x250 GB und 1x500 GB Festplatten. Vielleicht ist das naiv, aber würde das Laufwerk, das doppelt hält, nicht mehr Daten haben, mit denen es scheitern könnte? Ich denke, ich weiß nicht, ob MTBF falsches Lesen oder Schreibfehler enthält, oder ob es bedeutet, dass die Platte mechanisch kaputt geht. Weiß jemand, ob es einen strikten Industriestandard und eine Definition von MTBF für Festplatten gibt?


1
2018-06-09 10:37





Hier sind ein paar Dinge, die ich überprüfen würde: 1) Sind die Seriennummern auf den Laufwerken ziemlich nah? Wenn ja, haben Sie möglicherweise eine fehlerhafte Charge 2) Wie ist die Umgebung, in der Ihr Server lebt? Hatten Sie in letzter Zeit Probleme mit anderer Hardware? 3) Sind die Laufwerke zufällig Seagate Barracuda-Laufwerke? Es gibt Probleme mit diesen Laufwerken. Sieh dir das an Computerworld Artikel darauf. 4) Sind diese Laufwerke Teil eines Systems? oder hast du sie selbst gekauft? Wenn Sie OEM-Laufwerke gekauft haben, gibt es keine Möglichkeit, sicherzustellen, dass die Laufwerke sorgfältig behandelt wurden, bevor Sie sie gekauft haben.

Ich hatte persönlich unglaubliches Glück mit Festplatten. Ich habe nur zwei Fahrten auf mich gescheitert. Nur einer dieser Fehler war auf einer Festplatte, die ich tatsächlich benutzte. Überall um mich herum habe ich jedoch viele Leute gesehen, die Daten auf Festplatten verloren haben.


1
2018-06-09 13:10



Hmm, ja, sie sind alle sehr nah dran, aber sie waren WDs, nicht Seagates, und ja, sie waren OEM-Laufwerke ... ein paar Dinge, die ich dort nicht berücksichtigt hatte ... - Mark Henderson♦


Die höhere Ausfallrate von großen Laufwerken könnte nur eine Funktion der Größe der Laufwerke sein. Eine Fahrt mit fünfzig Millionen Sektoren hat zehnmal die Chance, einen schlechten Sektor zu haben, als eine Fahrt mit fünf Millionen Sektoren. Ich gehe davon aus, dass die Ausfallrate unter großen Laufwerken und kleinen Laufwerken die gleiche ist, was wahrscheinlich keine gute Annahme ist - wie jemand anderes sagte, dass Terabyte-Laufwerke noch relativ neu sind, haben sie wahrscheinlich eine höhere Ausfallrate anfangen mit.

In Ihrem Fall klingt es einfach wie eine schlechte Menge von Laufwerken.


1
2018-06-09 13:51





Wenn Sie alle Laufwerke gleichzeitig vom selben Ort gekauft haben, ist es möglich, dass alle aus einem einzigen fehlerhaften Stapel stammen.

Wenn ich ein RAID-Array zusammenstelle, empfehle ich im Allgemeinen, Laufwerke ein wenig zu mischen, d. H. Eine Mischung von Herstellern oder zumindest Laufwerken von verschiedenen Lieferanten (um das Risiko zu reduzieren, dass alle Laufwerke aus einer fehlerhaften Charge stammen).

Eine andere Empfehlung, die ich machen würde, ist, kleinere Laufwerke zu verwenden (d. H. Sie haben physischen Platz für die Festplatten und Controller-Ports, um sie aufzuhängen), so dass anstelle eines RAID 1-Laufwerks oder zwei 1TB-Laufwerke ein RAID 10 von vier 500Gb-Einheiten. Auf diese Weise wird bei einem Laufwerkswechsel nur ein kleineres Array neu erstellt, das Teil eines größeren Arrays ist, anstatt das gesamte Array neu zu erstellen (wodurch die Länge der Zeit verringert wird, während der das Array nicht abgeschlossen ist). Außerdem bietet es ein wenig mehr Redundanz (in vier der sechs der "zwei Laufwerke scheitern auf einmal" -Szenarien ein 4-Laufwerk RAID10 Array wird leben). Sie können dasselbe tun, wenn Sie kleinere R5-Arrays in ein R50-Array kombinieren, wenn dies von Ihrem RAID-Controller / Ihrer RAID-Software unterstützt wird.

Vielleicht bin ich übermäßig paranoid, aber ich würde vorsichtig sein, 1 TB Daten auf ein einzelnes Laufwerk zu vertrauen, selbst wenn dieses Laufwerk Teil eines redundanten Arrays ist.

Offensichtlich gibt es physikalische Einschränkungen, die die Technik für Sie unpraktisch machen können, die Leistungsaufnahme beschränkt sich auch auf YMMV. Als "zum Beispiel" wenn ein Array oder Arrays ist nicht Praktisch: Ich hätte lieber vier Laufwerke als R10 in einem unserer Server anstelle der größeren Laufwerke in einem R1-Array, aber es hat physisch keinen Platz, das Kaufen / Erstellen eines externen Arrays war außerhalb des Budgets und wir Der Speicherplatz in einem vorhandenen Array konnte nicht verwendet werden, da die Daten aufgrund der Datenschutzanforderungen physisch von allen anderen Daten getrennt sein mussten.


1
2018-06-09 14:01





Jemand hat eine sehr detaillierte Studie über dieses Problem von größeren Antrieben durchgeführt. Es hat damit zu tun, dass die Bitfehlerrate konstant bleibt, obwohl die Laufwerksgröße zunimmt, sowie die längere Zeit, die benötigt wird, um die größeren Laufwerke neu aufzubauen. Die beiden kombinieren, um einen zweiten Fehler während des Wiederaufbaus sehr in den Bereich der Realität zu bringen. Ich würde mit 500 GB oder kleineren Laufwerken auf RAID-Arrays gehen.


1
2018-03-26 15:49