Frage Identifizieren Sie die ausgefallene Festplatte physikalisch


Nehmen wir an, Ihr Server hat 6 gesunde Festplatten. Ein Laufwerk schlägt fehl (wird nicht eingehängt / erkannt, fällt mit Fehlern aus dem Raid aus) oder schlägt fehl (SMART wird schlechter usw.). Sie müssen das fehlerhafte Laufwerk austauschen. Wenn Sie das Gehäuse öffnen, sehen Sie sechs identische Festplatten.

Wie kannst du erkennen, welches nicht mehr gesund ist / anbaut / funktioniert?

System wäre Linux, am wahrscheinlichsten Ubuntu-Server, mit einfachsten Software-RAID. Die Festplatten wären SATA und direkt an das Motherboard angeschlossen. (kein Raid-Controller)

Ich möchte Laufwerke nicht willkürlich trennen, bis ich die richtige ausgewählt habe. Die Laufwerke erscheinen alle identisch mit mir; Ich stelle mir vor, dass es einen gewöhnlichen Weg gibt, um festzustellen, welches Laufwerk mir unbekannt ist. Hat jemand irgendwelche Hinweise / Tipps / Best Practices? Vielen Dank!

EDIT: Ich wollte, dass dies auf eine Hand-wellige Art verallgemeinert wird, aber es kam einfach nur als "unvollständig" und "schrecklich" heraus. Mein Fehler!


21
2017-09-10 17:53


Ursprung


Wenn Sie die Maschine herunterfahren und herausfinden müssen, welche Festplatte was ist, sollten Sie sich die Zeit nehmen, während die Maschine heruntergefahren ist, um jede Festplatte zu identifizieren und sie auf irgendeine Weise zu beschriften, damit dies nicht passiert Problem. - Roy Rico
Ein "RAID (oder was auch immer)"? Klingt wie ein Benutzer im Maschinenraum. - romandas
Ein geeigneter Server wird Ihnen mitteilen, welches Laufwerk durch Einschalten der Laufwerksfehleranzeige des fehlerhaften Laufwerks angezeigt wird. - John Gardeniers
Mann, jeder ist so schnell darauf, dass er naiv ist ... ehrlich gesagt denke ich, dass es eine gute Frage ist, eine, mit der ich selbst fertig werden musste! - Mark Henderson♦
Ich bin neugierig, ob es für Hobbyzwecke möglich ist, (mit Lötkolben in der Hand usw.) Signallampen zu erzeugen, um sie physikalisch innerhalb eines zufälligen Betriebssystems zu identifizieren (wenn es keinen anständigen Server / RAID-Controller gibt) präsentieren, um ihre Magie zu tun) ... - Oskar Duveborn


Antworten:


Ich hatte genau dieses Problem auf einem (Tower-) Server, genau wie du es erklärst, und es war einfach:

smartctl gibt die Seriennummer des Laufwerks aus

Anbieter liefern manchmal ihre eigenen spezifischen Tools wie hdparm, die das gleiche tun.

Geben Sie also die Seriennummer des fehlerhaften Laufwerks aus, und suchen Sie dann mit einem Zahnarztspiegel und einer Taschenlampe das Laufwerk.

Auf einem Rackmount haben Sie normalerweise Anzeigeleuchten, wie andere Leute gesagt haben, aber ich wette, das gleiche würde gelten.


25
2017-09-10 21:10



Whoops ... smartctl, nicht hdparm war der, an den ich denke. Ich muss meine Antwort bearbeiten, um das zu reflektieren. - Bart Silverstrim
upvoted um mich an den richtigen Befehl zu erinnern :-) - Bart Silverstrim
hdparm -i zeigt mir die Seriennummern meiner Laufwerke - Das kann jedoch eine herstellerspezifische Antwort sein - Ian Clelland
Ausgezeichnet! Ich kann es jetzt nicht versuchen, aber es sieht so aus, als ob das die Antwort ist! Ich werde jetzt meine Festplattenlaufwerke mit den letzten N Ziffern ihrer Seriennummern (vorausgesetzt, das ist einzigartig, pro Server) an einer Stelle, die während der Bereitstellung ausgesetzt ist. Auch beim Googlen sieht der Befehl "smartctl -i" aus - privatehuff


Das Anbringen von Aufklebern an Laufwerken (abhängig von der Konstruktion des Tabletts) ist unter Umständen nicht möglich. Wenn die Festplatte abstirbt, können die Aufkleber getrocknet und abgefallen sein.

Ledctl (aus Paket Ledmon) ist wirklich der Weg, um damit zu gehen.

ledctl locate=/dev/disk/by-id/[drive-id]

oder

ledctl locate=/dev/sda

Leuchtet die Laufwerkfehleranzeige an Ihrem Chassis für das angegebene Laufwerk auf. Ich habe zwei Beispiele angeführt, um zu verdeutlichen, dass es egal ist, WIE du das Laufwerk identifizierst. Sie können Seriennummer, Name usw. verwenden. Welche Informationen Ihnen zur Verfügung stehen, kann verwendet werden. Die Laufwerke sind unter / dev / und / dev / disk / pfad mehrfach referenziert.

Um das Licht wieder auszuschalten, führe es einfach erneut aus und verändere locate zu locate_off wie folgt:

ledctl locate_off=/dev/sda

13
2017-08-29 16:47





Normalerweise müssten Sie hoffen, dass die Verbindungen auf irgendeine Art und Weise beschriftet sind und dann von der Identität des ausgefallenen Geräts funktionieren. Zum Beispiel ... und jemand müsste kommentieren, um mich zu korrigieren ... Wenn Sie zwei IDE-Kanäle haben, haben Sie bis zu 2 Laufwerke auf jedem, Sie könnten SDA, SDB, SDC und SDD haben. Wenn sdd fehlschlug, wäre es das zweite Laufwerk auf dem Kabel des zweiten IDE-Kanals.

Wenn es SATA ist und wie das System, das ich im Hinterzimmer habe, sind die Häfen für jedes der SATA Antriebe beschriftet. Auch hier geht der Laufwerksschriftzug von einem durch, was auch immer die Laufwerke angehen, angefangen bei Port 0 der SATA-Anschlüsse und aufwärts.

Wenn es Herstellungsunterschiede gibt, sollte dmesg | grep sd oder dmesg | grep hd einige Hinweise liefern.

Wenn Sie die Seriennummern haben, glaube ich, dass der Befehl hdparm sie Ihnen in der Software geben kann, damit Sie sie so verfolgen können. Vielleicht möchten Sie die Laufwerke irgendwo beschriften, wenn dies der Fall ist, damit Sie sich keine Sorgen machen müssen, wenn Sie ein Problem feststellen.

... Ich wusste, dass es einen anderen Grund gab, warum ich Hardware-RAID gegenüber Software-RAID bevorzugte ... blinkendes Licht. Wirklich wie die blinkenden Lichter.

EDIT: smartctl, nicht hdparm, gibt die Seriennummer. Mein Fehler.


6
2017-09-10 20:33



+1 für die blinkenden Lichter - Oskar Duveborn


Bei einigen Laufwerken ist eine locate- "Datei" vorhanden /sys in dem Sie eine 1 für das Einschalten der Locate-Anzeigeleuchte ein oder 0 für aus anzeigen können.

$ for light in $( find /sys -name "locate" ) ; do echo 1 > $light ; sleep 10 ; echo 0 > $light; done

3
2017-09-25 13:33



Ich hatte keine Ahnung davon! Das ist toll! - diq


Sechs interne HDDS? Wenn es sich um externe Hot-Swap-Laufwerke handelt, weist der Hot-Swap-Träger wahrscheinlich eine Fehlerlampe auf, die Ihnen hilft, das fehlerhafte Laufwerk zu identifizieren. Auch viele Raid-Verwaltungsprogramme haben die Option, das Licht auf einem bestimmten Laufwerk zu blinken, um zu bestimmen, welches das ist. Wenn sie alle intern sind und keine Lichter haben, dann sind Sie auf Ihre RAID-Software angewiesen und sagen Ihnen, welche IDs gut sind, und schauen sich die SCSI-IDs usw. an, um es herauszufinden. Wenn sie auf auto eingestellt sind, sollte Ihr RAID-Controller doc Ihnen mitteilen, in welcher Reihenfolge in der SCSI-Kette die IDs zugewiesen sind. Viel Glück. Machen Sie jetzt ein Backup, während die Dinge noch laufen!


2
2017-09-10 18:03





Zumindest sollte die RAID-Software / der RAID-Controller, der Sie über das ausgefallene Laufwerk informiert hat, Ihnen mitteilen, welches Laufwerk ausgefallen ist (ID-Nummer). 0 ist in der Regel die oben links, nach unten, dann nach rechts (wenn in zwei oder mehr Spalten). Die Ports sind wahrscheinlich beschriftet.


2
2017-09-10 19:23





Wenn alles andere fehlschlägt, können Sie die nicht ausgefallenen Laufwerke identifizieren und rückwärts arbeiten.

find / -type f -exec cat {} \; >> /dev/null

Was auch immer Aktivitätsbeleuchtungen angeht, die NICHT eingeschaltet sind, sind wahrscheinlich schlecht (und hoffentlich ist es nur einer.) Beachten Sie, dass diese nicht aufleuchten, wenn Sie Hot-Spares konfiguriert haben.


1
2017-09-10 21:12





Wenn Sie kein lokales Licht haben und die Seriennummern auf der Außenseite der Laufwerke nicht leicht finden können, kann diese käsige Technik manchmal helfen: Erstellen Sie eine Menge Aktivität auf diesem bestimmten Laufwerk und suchen Sie dann nach dem Laufwerk mit der Aktivitäts-LED . Es empfiehlt sich, die Seriennummer genauer zu prüfen, dies kann jedoch die Suche eingrenzen.

Z.B.:

# while true; do dd if=/dev/disk/by-id/scsi-drive-that-is-dying of=/dev/null; sleep 1; done

(Die While-Schleife ist technisch nicht notwendig, aber sie wird die Dinge in Bewegung halten, während Sie in das Rechenzentrum gehen. Die "Sleep 1" hilft, die hohe CPU-Auslastung durch eine schnelle Schleife zu vermeiden, wenn das "dd" fehlschlägt. . Das Laufwerk wird getrennt.)


1
2017-08-08 16:01





Sie sollten am Gehäuse beschriftet sein und der RAID-Software entsprechen.

Auf unseren Dells ist das nicht die Art, wie Sie denken würden. Bei uns ist 0: 0 unten links, 0: 1 ist oben links, 0: 2 ist unten Mitte usw. Bei allen Servern, die ich verwendet habe (außer bei selbst erstellten Jobs), zeigt die RAID-Software den Port an, und dieser wird etikettiert.


0
2017-09-10 19:29





Scsirastools verfügt über eine Reihe von Tools, mit denen Sie verschiedene Diagnosetests auf SCSI-Festplatten durchführen können. Sie können sgmon auch verwenden, um einen Datenträger unter Softwaresteuerung herunterzufahren. Dies würde Ihnen zumindest erlauben, die physische Festplatte zu identifizieren, die Sie mit der Diagnose finden könnten.

Wenn Sie über einen Hardware-RAID-Controller verfügen, sollte das BIOS oder die Verwaltungssoftware des Controllers über eine Funktion verfügen, mit der Sie fehlerhafte Datenträger identifizieren können.


0
2017-09-11 12:37