Frage Ist es sicher, Consumer-MLC-SSDs in einem Server zu verwenden?


Wir (und ich meine Jeff) untersuchen die Möglichkeit, Consumer MLC SSD-Festplatten in unserem Backup-Datencenter zu verwenden.

Wir wollen versuchen, die Kosten niedrig zu halten und den verfügbaren Speicherplatz zu vergrößern - so liegen die Intel X25-E mit rund 700 $ und 64 GB Kapazität ziemlich weit draußen.

Wir denken daran, einige der unteren SSDs zu kaufen, die mehr Kapazität zu einem niedrigeren Preis anbieten. Mein Chef glaubt nicht, dass die Investition von 5k für Festplatten in Server, die aus dem Backup-Rechenzentrum herauslaufen, die Investition wert ist.

Diese Laufwerke würden in einem RAID-Array mit 6 Festplatten auf einem Lenovo RD120 verwendet werden. Der RAID-Controller ist ein Adaptec 8k (umbenannt in Lenovo).

Wie gefährlich ist eine Vorgehensweise und was kann getan werden, um diese Gefahren zu mindern?


44
2018-02-01 20:48


Ursprung


Was ist der Grund für die Verwendung von SSD statt Spinner? Die Volksweisheit auf SSD-Leistung ist "zahlen oder nicht belästigen", aber es gibt sicherlich andere Aspekte, die ein Vorteil sein könnten. - peterchen
Ich bin neugierig auf das Problem, das Sie hier zu lösen versuchen. Wenn es nur eine der Kosten ist, warum werden SSDs anstelle von konventionellen Antrieben in Betracht gezogen? - John Gardeniers
@peterchen, du kannst entweder ein paar SSDs oder fünfzig 15K Spindeln verwenden. - Mircea Chirea
@iconiK - meinst du "für einen Server musst du sowieso viel Geld ausgeben"? Wenn ja - ja, deshalb habe ich mich auch gefragt. - peterchen


Antworten:


Ein paar Gedanken;

  • SSDs haben Speicher "überkompensiert". Dies ist der Speicher, der anstelle von Zellen verwendet wird, die durch Schreiben beschädigt wurden. Low-End-SSDs haben möglicherweise nur 7% Overcommit-Speicherplatz; mittlerer Bereich um 28%; und Enterprise-Festplatten so viel wie 400%. Betrachten Sie diesen Faktor.
  • Wie viel wirst du ihnen jeden Tag schreiben? Selbst Mittelklasse-SSDs wie jene, die auf den 1200-Chips von Sandforce basieren, schätzen selten mehr als etwa 35 GB Schreibvorgänge pro Tag, bevor sie ernsthaft in den überlasteten Speicher schneiden.
  • Gewöhnlich ist der Tag 1 einer neuen SSD voll mit Schreiben, ob das Betriebssystem oder Daten sind. Wenn Sie am ersten Tag deutlich mehr als> 35 GB an Schreibvorgängen haben, sollten Sie es in Stapeln kopieren, um der SSD zwischen den Stapeln eine 'Aufräumzeit' zu geben.
  • Ohne TRIM-Unterstützung kann die Random-Write-Leistung innerhalb von Wochen um bis zu 75% sinken, wenn während dieses Zeitraums viel geschrieben wird - wenn möglich, verwenden Sie ein Betriebssystem, das TRIM unterstützt
  • Die internen Speicherbereinigungsprozesse, die moderne SSDs ausführen, werden sehr spezifisch in ruhigen Zeiträumen ausgeführt und stoppen bei der Aktivität. Dies ist kein Problem für einen Desktop-PC, bei dem die Festplatte für 60% des normalen 8-Stunden-Tastverhältnisses leise sein kann, aber Sie haben einen 24-Stunden-Dienst ... Wann wird dieser Prozess ausgeführt?
  • Es ist in der Regel tief in Spezifikationen begraben, aber wie billige "normale" Festplatten, werden kostengünstige SSDs auch nur eine Einschaltdauer von rund 30% erwartet. Sie werden sie für fast 100% der Zeit verwenden - dies wird Ihre MTBF-Rate beeinflussen.
  • Während SSDs nicht die gleichen mechanischen Probleme haben wie normale Festplatten, haben sie Single- und Multiple-Bit-Fehler - so stark überlegen, sie zu RAID, obwohl der Instinkt nicht ist. Offensichtlich wird es sich auf all die schöne zufällige Schreibgeschwindigkeit auswirken, die Sie gerade gekauft haben, aber überlegen Sie es trotzdem.
  • Es ist immer noch SATA und nicht SAS, daher wird Ihre Warteschlangenverwaltung in einer Serverumgebung nicht so gut sein, aber dann wird der zusätzliche Leistungsschub ziemlich dramatisch sein.

Viel Glück - nur nicht mit ihnen schreiben :)


61
2018-02-01 21:09



Meinst du 400% für den zusätzlichen Platz oder 40%? Ich wollte deine Antwort bearbeiten, konnte aber kein Zitat finden, also könnte es 400% sein. (Es ist übrigens ein sehr guter Punkt) - ChrisInEdmonton
Es ist auch nicht immer klar, ob TRIM in einer RAID-Konfiguration unterstützt wird. Denken Sie daran, dass die SSDs mit RAID vom Betriebssystem entfernt sind. Informieren Sie sich beim RAID-Anbieter. - Matt Sherman
Ich meinte 400 Chris, speziell die in FC SANs, sehr teuer, aber sehr. - Chopper3
Ein Trick, um mehr Speicherplatz aus einem Laufwerk herauszuholen, ist das sichere Löschen, dann partitionieren Sie es mit einem großen Anteil unbenutzt. Dieser freie Speicherplatz erhöht die Leistung und Lebensdauer der SSD. - Zan Lynx
Ich möchte nur mit @ZanLynx +1 geben. Normalerweise partitioniere ich nur 80% des Laufwerks, wenn ich SSD + Raid benutze. - Tracker1


Ich habe diesen Link gefunden, der eine interessante und gründliche Analyse von MLC vs SLC SSDs in Servern

Aus meiner Sicht ist die Verwendung eines MLC-Flash-SSD-Arrays für eine Unternehmensanwendung, ohne zumindest die (beanspruchte) abmildernde Wirkung einer Technologie wie Easycos MFT zu nutzen, wie das Springen aus einem Flugzeug ohne Fallschirm.

Beachten Sie, dass einige MLC SSD-Anbieter behaupten, dass ihre Laufwerke "Enterprise" genug sind um die write zu überleben:

SandForce will das erste Unternehmen mit einem Controller sein, der mehrstufige Flash-Chips für Solid-State-Laufwerke in Servern unterstützt. Durch die Verwendung von MLC-Chips ebnet der SF-1500 den Weg zu kostengünstigeren und dichteren Laufwerken, die von den Herstellern benötigt werden.   Bis heute haben Flash-Laufwerke für Server Single-Level-Flash-Chips verwendet. Das liegt daran, dass die Ausdauer und Zuverlässigkeit von MLC-Chips im Allgemeinen nicht den Anforderungen von Servern gerecht wurde.

Es gibt eine weitere Analyse dieser Ansprüche bei AnandTech.

Darüber hinaus hat Intel dies jetzt gesagt SLC könnte in 90% der Fälle zu viel Overkill sein:

"Wir glaubten, dass SLC [single-level cell] erforderlich ist, aber was wir durch Studien mit Microsoft und sogar Seagate herausgefunden haben, ist, dass diese rechenintensiven Anwendungen wirklich nicht so viel schreiben, wie sie dachten", sagte Winslow. "Neunzig Prozent der Rechenzentrumsanwendungen können dieses MLC-Laufwerk [Multilevel-Zelle] nutzen."

Im Laufe des letzten Jahres erkannten Hersteller, dass sie durch die Verwendung von spezieller Software in den Antriebsreglern die Zuverlässigkeit und Ausfallsicherheit ihrer MLC-SSDs der Consumer-Klasse bis zu dem Punkt steigern konnten, an dem Unternehmen sie angenommen haben Hochleistungs-Rechenzentrumsserver und Speicher-Arrays. SSD-Anbieter haben begonnen, den Begriff eMLC (Enterprise MLC) NAND-Flash zu verwenden, um diese SSDs zu beschreiben.

"Aus der Volume-Perspektive sehen wir, dass es wirklich hoch schreibintensive Hochleistungs-Computing-Umgebungen gibt, die SLC vielleicht noch benötigen, aber das ist in den Top-10% sogar der Enterprise-Rechenzentrumsanforderungen", sagte Winslow.

Intel speist über sein Joint Venture mit Hitachi Global Storage Technologies die oberen 10% des Enterprise-Data-Center-Marktes. Hitachi produziert die Serie Serial Attached SCSI SSDs SSD400S mit 6 Gbit / Sek. Durchsatz - doppelt so viel wie bei den MLC-basierten SATA-SSDs.

Intel, selbst für ihre server-orientierten SSD-Laufwerke, hat Migration von SLC zu MLC mit sehr hohem "Overprovisioning" -Flächen mit der neuen Intel SSD 710-Serie. Diese Laufwerke belegen intern bis zu 20% des gesamten Speichers für Redundanz:

Leistung hat für die SSD 710 keine oberste Priorität. Stattdessen will Intel SLC-Level-Ausdauer zu einem vernünftigen Preis anbieten, indem er billigeres eMLC HET NAND verwendet. Die SSD 710 unterstützt auch eine benutzerkonfigurierbare Überprovisionierung (20%), was die Laufwerksdauer erheblich erhöht. Die Garantie des SSD 710 beträgt 3 Jahre oder bis eine Verschleißanzeige ein bestimmtes Niveau erreicht, je nachdem, was zuerst eintritt. Dies ist das erste Mal, dass wir die SSD-Garantie auf diese Weise begrenzt sehen.


12
2018-02-01 22:07





Bereite diese Dinge immer eher auf Fakten als auf Vermutungen. In diesem Fall ist das Sammeln von Fakten einfach: Zeichnen Sie längerfristige Lese- / Schreib-IOPS-Profile Ihrer Produktionssysteme auf und stellen Sie dann fest, womit Sie in einem Disaster Recovery-Szenario leben können. Sie sollten etwas wie das 99. Perzentil als Maß verwenden. Tun nicht Verwenden Sie Durchschnittswerte bei der Messung der IOPS-Kapazität - die Spitzen sind alles, was zählt! Dann müssen Sie die erforderliche Kapazität und IOPS nach Bedarf für Ihre DR-Site kaufen. SSDs können der beste Weg sein, um das zu tun, oder auch nicht.

Wenn Ihre Produktionsanwendungen zum Beispiel 7500 IOPS beim 99. Perzentil benötigen, könnten Sie bei einem Desaster entscheiden, dass Sie mit 5000 IOPS leben können. Aber das sind mindestens 25 15K Festplatten, die direkt auf Ihrer DR-Seite benötigt werden. SSD könnte also eine bessere Wahl sein, wenn Ihre Kapazitätsanforderungen gering sind (klingt wie sie sind). Aber wenn Sie nur messen, dass Sie 400 IOPS in der Produktion machen, kaufen Sie einfach 6 SATA-Laufwerke, sparen Sie sich ein paar Münzen und nutzen Sie den zusätzlichen Platz zum Speichern weiterer Backup-Snapshots am DR-Standort. Sie können auch Lese- und Schreibvorgänge in Ihrer Datensammlung trennen, um herauszufinden, wie lange SSDs für Nicht-Unternehmen basierend auf ihren Spezifikationen für Ihre Workload ausreichen.

Denken Sie auch daran, dass DR-Systeme möglicherweise weniger Speicher haben als die Produktion, was bedeutet, dass mehr IOPS benötigt werden (mehr Swapping und weniger Dateisystem-Cache).


7
2018-02-02 05:05





Auch wenn die MLS SSD nur ein Jahr hält, wird der Ersatz in einigen Jahren deutlich günstiger sein. Kannst du damit umgehen, dass du die MLS SSD ersetzen musst, wenn sie rauskommt?


5
2018-02-02 13:04



ein guter Punkt, vor allem, da sie in einem RAID-Array sein werden. solange "zu viele" von ihnen nicht gleichzeitig versagen, ist dies tatsächlich plausibel. - Jeff Atwood
@Jeff, wenn du ein paar Ein- und Aussteiger mit deinen Desktop-PCs austauschen kannst, so dass nicht alle die ein oder andere Nutzungspatches bekommen, dies wird es weniger schaden lassen, sie werden alle gleichzeitig ausfallen. - Ian Ringrose
@Jeff, ich denke weitgehend, Fail == "anfangen, sehr langsame Rechte zu tun", anstatt "dann lese ich Daten" - Ian Ringrose
liebst du keine Autokorrektur :-) - Jeroen Wiert Pluimers


Wenn wir das Problem der Schreibmenge beiseite legen (oder beweisen, dass Consumer-SSDs damit umgehen können), sind SSDs meiner Meinung nach eine gute Ergänzung für Umgebungen auf Unternehmensebene. Sie werden wahrscheinlich die SSDs in einem RAID-Array verwenden. RAID5 oder RAID6. Und das Problem dabei ist, dass das Array nach einem Ausfall eines einzelnen Laufwerks zunehmend anfällig für Fehler wird. Und die Zeit für den Wiederaufbau hängt stark von der Größe des Arrays ab. Ein Array mit mehreren TB kann Tage dauern, um neu aufzubauen, während ständig zugegriffen wird. Im Falle von SSDs werden die RAID-Arrays a) unweigerlich kleiner sein. B) Die Wiederherstellungszeit nimmt drastisch ab.


3
2018-02-01 22:20





Ein Whitepaper zu den Unterschieden zwischen SLC und MLC von SuperTalent die Ausdauer von MLC und ein Zehntel der Ausdauer einer SLC SSD, aber die Chancen stehen gut, dass die MLS SSDs die Hardware übertreffen werden, in die Sie sie sowieso stecken. Ich bin mir nicht sicher, wie zuverlässig diese Statistiken / Fakten von SuperTalent sind.

Angenommen, Sie erhalten vom Supplier der MLC SSDs ein ähnliches Support-Level, dann lohnt sich der günstigere Preis.


3
2018-02-01 21:05



5 Jahre Lebensdauern für typische Desktop-Nutzung wurden erwähnt. Wenn das eine genaue Schätzung ist, werden sie den Server in einer Rechenzentrumsumgebung nicht überleben! - JamesRyan
@ JamesRyan: Obwohl in den meisten Berechnungen nicht gezeigt, ist die Lebensdauer sehr abhängig von dem Anteil an freiem Speicherplatz. - Ben Voigt
In den Organisationen, für die ich gearbeitet habe, haben wir Server-Hardware seit 3 ​​Jahren immer aktualisiert. Ich hatte den Eindruck, dass das Best Practice allgemein akzeptiert wurde, korrigiere mich aber, wenn ich falsch liege. - chunkyb2002


Sie sollten nur die Anzahl der täglichen Schreibvorgänge berechnen, die Sie mit Ihrer aktuellen Konfiguration haben, und diese mit den Werten vergleichen, die der Hersteller für seine SSD-Laufwerke garantiert. Intel scheint das Beste zu sein. Schauen Sie sich zum Beispiel die Mainstream-SSD-Antriebsdatenblätter an: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

Abschnitt 3.5 (3.5.4, speziell) des Dokuments Spezifikationen besagt, dass Sie garantiert haben, dass Ihr Laufwerk mindestens 5 Jahre mit 20 GB Schreibvorgänge pro Tag dauert. Ich gehe davon aus, dass dies berechnet wird, wenn die gesamte Laufwerkskapazität verwendet wird und kein freier Speicherplatz für Schreibvorgänge bereitgestellt wird.

Interessant ist auch das Datenblatt zur Verwendung von Mainstream-SSDs in einer Unternehmensumgebung.


3
2018-02-02 12:15



Leider ist es gar nicht so einfach, denn Wear-Leveling verstärkt Schreibvorgänge (denken Sie daran, dass es Schreibvorgänge verbreitert und nicht reduziert) in einer Art und Weise, die proprietär ist und stark in seiner Effektivität basierend auf dem Nutzungsmuster variieren kann. - JamesRyan
Hm, sehr guter Punkt. Das Verlieren des TRIM-Befehls bei Verwendung der Laufwerke in einem RAID-Setup sollte außerdem die Schreibverstärkung erhöhen. Ich denke, es kommt auf die Idee jedes Herstellers für das typische Nutzungsmuster an. - cearny


Vor ein paar Jahren habe ich ein paar 32 GB SLC-Laufwerke als Puffer für eine schrecklich schlechte App, die wir benutzten, eingesetzt.

Die Anwendung war zu 90% kleinschreibfähig (<4k) und lief auf den SSD-Laufwerken konstant (24/7) mit 14k w / s. Sie waren RAID 1 konfiguriert, alles war rosig, die Latenz war niedrig!

Nach ungefähr einem Monat und der ersten Fahrt, buchstäblich innerhalb von drei Stunden, war die zweite Fahrt ebenfalls verstorben. RAID 1 nicht so ein guter Plan, nachdem alle :)

Ich würde den anderen Postern auf einer Art von RAID 6 zustimmen, wenn nichts anderes diese verteilt über mehrere Laufwerke verteilt.

Denken Sie daran, dies war vor ein paar Jahren und diese Dinge sind jetzt viel zuverlässiger und Sie haben vielleicht kein ähnliches I / O-Profil.

Die App wurde überarbeitet, jedoch haben wir als Stop-Lücke, die Ihnen helfen kann oder wollte, eine große RAM-Disk erstellt, einige Skripte erstellt, um die RAM-Disk neu zu erstellen / zu sichern und den Verlust von ungefähr einer Stunde zu nehmen /Wiederherstellungszeit.

Auch hier kann der Lebenszyklus Ihrer Daten unterschiedlich sein.


2
2017-08-03 19:33