Frage Mittlere Zeit zwischen Ausfällen - SSD


Das Mittlere Zeit zwischen Fehlernoder MTBF, für diese SSD ist gelistet als 1,500,000 Std.

Das ist ein Menge von Stunden. 1,500,000 Stunden sind ungefähr 170 Jahre. Da die Erfindung dieser bestimmten SSD ist nach dem Bürgerkrieg, woher wissen sie, was die MTBF ist?

Ein paar Optionen, die für mich sinnvoll sind:

  • Newegg hat nur einen Tippfehler
  • Die Definition der mittleren Zeit zwischen Ausfällen ist nicht das, was ich denke
  • Sie verwenden eine Art von statistischer Extrapolation, um abzuschätzen, wie die MTBF aussehen würde

Frage:

Wie wird die mittlere Zeit zwischen Ausfällen (MTF) für SSD / HDDs erreicht?


31
2017-11-03 19:22


Ursprung


Verbunden: serverfault.com/q/257693/126632 - Michael Hampton♦


Antworten:


Antriebshersteller geben die Zuverlässigkeit ihrer Produkte in Bezug auf zwei verwandte Messgrößen an: die annualisierte Ausfallrate (AFR), die den Prozentsatz von Festplattenlaufwerken in einer Population angibt, die in einem auf eine Schätzung pro Jahr skalierten Test versagen; und die mittlere Zeit bis zum Versagen (MTTF).

Das AFR eines neuen Produkts wird in der Regel basierend auf beschleunigten Lebens- und Stresstests oder basierend auf Felddaten früherer Produkte geschätzt. Die MTTF wird als die Anzahl der Betriebsstunden pro Jahr dividiert durch das AFR geschätzt. Eine gängige Annahme für Laufwerke in Servern ist, dass sie zu 100% eingeschaltet sind.

http://www.cs.cmu.edu/~bianca/fast/

MTTF von 1,5 Millionen Stunden klingt etwas plausibel.

Das wäre ungefähr ein Test mit 1000 Laufwerken, die 6 Monate lang laufen und 3 Laufwerke ausfallen.
  Die AFR wäre (2 * 6 Monate * 3) / (1000 Fahrten) = 0,6% jährlich und die MTTF = 1 Jahr / 0,6% = 1 460 967 Stunden oder 167 Jahre.

Ein anderer Weg, diese Nummer zu betrachten, ist, wenn Sie 167 Laufwerke haben und sie für ein Jahr laufen lassen, behauptet der Hersteller im Durchschnitt Sie werden feststellen, dass ein Laufwerk fehlschlägt.

Aber ich erwarte, dass das einfach die konstante "zufällige" mechanische / elektronische Ausfallrate ist.

Unter der Annahme, dass Fehlerraten folgen Badewannenkurvewie in den Kommentaren erwähnt, Das Marketingteam des Herstellers kann die Zuverlässigkeitsziffern ein wenig massieren, z. B. indem DOA's (tot bei Ankunft, Einheiten, die die Qualitätskontrolle bestanden haben, aber nicht erfolgreich sind, wenn der Endbenutzer sie installiert) nicht berücksichtigt werden und die DOA-Definition auch in den frühen Jahren ausgeschlossen wird Fehlerspitze. Und weil Tests nicht lange genug durchgeführt werden, werden Sie auch keine Alterseinflüsse sehen.

Meiner Ansicht nach die Garantiezeit ist ein besserer Hinweis darauf, wie lange ein Hersteller tatsächlich von einer SSD ausgeht!
Das wird definitiv nicht in Jahrzehnten oder Jahrhunderten gemessen werden ...


Verbunden mit der MTBF ist die Zuverlässigkeit, die mit der endlichen Anzahl von Schreibzyklen verbunden ist, die NAND-Zellen unterstützen können. Eine allgemeine Metrik ist die gesamte Schreibkapazität, normalerweise in TB. Neben anderen Leistungsanforderungen ist das ein großer Limiter.

Um einen bequemeren Vergleich zwischen verschiedenen Fabrikaten und Laufwerken unterschiedlicher Größe zu ermöglichen, wird die Schreibdauer oft auf die tägliche Schreibkapazität als ein Bruchteil der Plattenkapazität umgerechnet.

Angenommen, ein Laufwerk ist so ausgelegt, dass es so lange läuft, wie es unter die Garantie fällt:
  Eine 100 GB SSD kann 3 Jahre Garantie und einen Schreibschutz haben   Kapazität 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Je höher diese Zahl ist, desto geeigneter ist die Festplatte für schreibintensive E / A.
Im Moment (Ende 2014) haben Wert Server Linie SSDs einen Wert von 0,3-0,8 Laufwerk / Tag, mittlerer Bereich steigt stetig von 1-5 und High-End scheint zu Sky-Rakete mit Schreib-Ausdauer-Levels von bis zu 25 * Die Antriebskapazität pro Tag für 3-5 Jahre.

Etwas reale Tests  zeigen, dass manchmal die Behauptungen des Anbieters massiv überschritten werden können, aber das Fahren von Ausrüstung weit über die Grenzen des Anbieters hinweg ist nicht immer eine Unternehmensüberlegung ... Stattdessen kaufe korrekt spezifizierte Laufwerke für deine Zwecke.


32
2017-11-03 19:42



Beachten Sie, dass die Konvertierung von AFR zu MTTF von einem konstanten AFR ausgeht. Dies gilt ausdrücklich nicht für Dinge mit beweglichen Teilen (z. B. Festplatten), und möglicherweise nicht für SSDs. - Mark
Definitiv wahr. IIRC gibt es eine frühe Fehlerspitze, dann eine Periode von geringem Versagen und dann eine stetige Zunahme der AFR mit zunehmendem Alter. Fügen Sie sich ändernde Umgebungsfaktoren hinzu und die reale Welt wird viel höher. Wie bei @Chris S erwähnt, kann die Garantiezeit eine bessere Metrik mit nützlichen Auswirkungen auf die reale Welt sein. - HBruijn
Gute ernüchternde Ansicht, dass eine MTBF von 1'500'000 Stunden wirklich bedeutet "Wenn ich 1000 SSD wie diese habe, werden 3 wahrscheinlich innerhalb von 6 Monaten ausfallen (einige sogar früher als das) ...". +1 (und da die Tests über einen kurzen Zeitraum laufen, erwarten Sie, dass die Lebensdauer der Geräte die Garantie nicht zu sehr überschreitet ... die "MTBF" sinkt wahrscheinlich sehr, wenn Ihre Festplatte N Jahre alt wird) - Olivier Dulac
@HBruijn Danke für deine informative Antwort. Das Phänomen, auf das Sie sich beziehen (frühe Fehlerspitze, Periode von niedrigen Fehlern, dann stetige Zunahme von Fehlern) wird von der Badewannenkurve. - OSE


Leider ist die MTBF nicht das, was die meisten Leute denken ...

  • Es ist nicht wie lange ein einzelnes Laufwerk dauern wird.

    Hersteller erwarten, dass ihre Laufwerke so lange halten wie die Garantie, danach ist es wirklich nicht ihr Problem. Ältere Festplatten mit elektromagnetischen Platten werden nach etwa 10 Jahren festfressen. Integrierte Schaltungen halten extrem lange, andere Komponenten (insbesondere Kondensatoren) verschleißen jedoch nach einer einigermaßen vorhersagbaren Anzahl von Zyklen.

  • Es ist Wie viele dieser Laufwerke müssen Sie erwarten, dass 1 Laufwerk pro Stunde fehlschlägt.

    Wie andere darauf hingewiesen haben, führen Hersteller verschiedene Tests über einen angemessenen Zeitraum durch und ermitteln eine Fehlerrate. Es gibt eine große Menge an Varianz in diesen Arten von Tests und Marketing hat oft "eingegeben", was die endgültige Zahl sein sollte. Unabhängig davon, wie viele Laufwerke benötigt werden, um einen Fehler pro Stunde zu mitteln.

    Für Situationen mit weniger Laufwerken können Sie eine statistische Ausfallwahrscheinlichkeit basierend auf der MTBF ableiten. Beachten Sie jedoch, dass Fehler in gut gestalteten Produkten einer "Badewannen" -Kurve folgen sollten - das sind höhere Ausfallraten bei der ersten Inbetriebnahme von Geräten ihre Gewährleistungsfrist ist abgelaufen, mit niedrigeren Fehlerraten dazwischen.


19
2017-11-03 19:42





Sie stammen aus einer statistischen Auswertung, die auf einer kleinen Stichprobengröße und einer kurzen Zeitspanne beruht. Es gibt wirklich keine allgemein akzeptierte Methode oder Prozess, also ist es wirklich nur albernes "Marketing".

Diese Artikel kann es ein bisschen mehr erklären. Und Wikipedia hat einige Formeln, die Sie suchen könnten?

Im Wesentlichen werden für fast alles (einschließlich allgemeiner Haushaltsmaschinen wie einer Geschirrspülmaschine) mehrere Produkte für eine Zeitdauer von X betrieben. Wie viele Fehler während dieses Zeitraums auftreten, wird zur Berechnung des MTFB verwendet.

Es ist natürlich nicht möglich, Produkte über einen gesamten Lebenszyklus hinweg zu betreiben, d. H. SSDs, die eine lange Lebensdauer haben. Sie sind meistens durch die Anzahl der Schreibvorgänge begrenzt und nicht durch mechanisches Versagen (wofür MTFB steht)


2
2017-11-03 19:48





Schlechte Nachrichten über MTBF sind, dass gemeinsame Bewertungsmetoden eine gleichmäßig verteilte Schreiblast unter allen NAND-Zellen annehmen. Aber Zellen werden in die Cluster gruppiert und wenn eine einzelne Zelle ausfällt, wird der gesamte Cluster als tot markiert und durch einen neuen aus der Reserve ersetzt. Normalerweise beträgt die Reserve etwa 20% des SSD-Volumens. Wenn die Reserve erschöpft ist, wird die gesamte SSD als tot markiert.

IRL SSD enthält persistente Daten sowie flüchtige Daten. Stellen Sie sich vor, dass Sie 90% der SSD mit statischen Daten gefüllt haben und dass die 10% Pause unter der hohen Schreiblast liegt. Der SSD-Controller verteilt die Last auf die verfügbaren freien Cluster. Diese 10% verbrauchen ihre Lebensdauer zehn Mal schneller als Sie geschätzt haben. Sie werden bis zum Ende immer wieder aus dem Vorrat ausgewechselt.

In dem wirklich schlechten Fall, in dem die persistente / volatile Datenmenge zum Beispiel 30: 1 oder mehr beträgt - Stapel von Fotos und relativ kleine Datenbank für populäre Webseiten, wird Ihre SSD in einem Jahr sterben.

Einer meiner Kunden war sehr beeindruckt von SSD-Eigenschaften und bestand darauf, seinen DBMS-Server mit einem Paar von ihnen auszurüsten. In den nächsten 12 Monaten haben wir beide zweimal ersetzt.

Aber entsprechend der Marketing-Materialien Lebensdauer von SSD ist 170 Jahre. Sicher.


1
2017-12-07 01:06





Die MTBF ist für das Messen der SSD-Laufwerksdauer nicht relevant, da SSD für die Zeit selbst nicht empfindlich ist wie gewöhnliches sich drehendes HDD-Laufwerk, sondern für die Anzahl von Neuschreibvorgängen für SSD-Zellen. Mehr relevante Maßnahme für SSD ist Laufwerk schreibt pro Tag (DWPD). Zum Beispiel würden einige Enterprise-Klasse-SSD-Festplatten 3,2 TB Ausdauer für 3 Jahre 3 DWPD sein.

Manchmal bieten SSD-Anbieter Ausdauer in Form von (Total) Terabytes Written (TBW) oder "Write Cycles", die leicht in DWPD übersetzt werden können und umgekehrt, wenn Zeit und maximaler Durchsatz für das gegebene SSD-Laufwerk bekannt sind.

Für das angegebene Beispiel mit 3.2Tb SSD-Laufwerk:
TBW = DriveSize * Jahre * DWPD;
TBW = 3,2 TB * 5 * 365 * 3D = 17520 TB für 5 Jahre

Wenn das Laufwerk einen nachhaltigen Schreibdurchsatz von 80 MByte pro Sekunde bietet, dann
WriteCycles = DWPD * Jahre;
WriteCycles = 3 * 365 * 5 = 5475 Gesamtschreibzyklen für die gegebene Platte

Es ist wichtig zu beachten, dass wir den schlimmsten Fall berechnen, wenn Sie 100% Auslastung für das Laufwerk bereitstellen (was sehr wahrscheinlich nicht möglich ist).


0
2018-02-20 09:23