Frage HP ProLiant DL360 G7 reagiert nicht mehr auf dem Bildschirm "Leistungs- und Temperaturkalibrierung"


I habe ein neues HP ProLiant DL360 G7 System, das ein schwer reproduzierbares Problem aufweist. Der Server hängt zufällig an der "Strom- und Temperaturkalibrierung läuft ..." Bildschirm während der Nachbearbeitung. Dies folgt normalerweise einem Warmstart / Neustart vom installierten Betriebssystem.

enter image description here

Das System bleibt zu diesem Zeitpunkt auf unbestimmte Zeit stehen. Ein Reset oder ein Kaltstart über die Leistungssteuerungen des ILO 3 führt dazu, dass das System normal ohne Zwischenfälle bootet.

Wenn sich das System in diesem Zustand befindet, ist die ILO 3-Schnittstelle vollständig zugänglich und alle Systemzustandsindikatoren sind in Ordnung (alle grün). Der Server befindet sich in einem klimatisierten Rechenzentrum mit Stromverbindungen zur PDU. Die Umgebungstemperatur beträgt 64 ° F / 17 ° C. Das System wurde vor der Bereitstellung ohne Fehler in eine 24-Stunden-Komponententestschleife gestellt.

Das primäre Betriebssystem für diesen Server ist VMWare ESXi 5. Wir haben zunächst 5.0 und später einen 5.1-Build versucht. Beide wurden über PXE-Boot und Kickstart bereitgestellt. Darüber hinaus testen wir mit Baremetal Windows und Red Hat Linux Installationen.

HP ProLiant-Systeme verfügen über umfangreiche BIOS-Optionen. Wir haben die Standardeinstellungen zusätzlich zum statischen Hochleistungsprofil ausprobiert. Ich habe den Start deaktiviert Begrüßungsbildschirm und nur einen blinkenden Cursor an diesem Punkt gegen den Screenshot oben. Wir haben auch einige VMWare ausprobiert "Best-Practices" für BIOS Konfig. Wir haben ein gesehen Advisory von HP, das ein ähnliches Problem zu skizzieren scheint, aber hat unser spezifisches Problem nicht behoben.

Ich vermutete ein Hardwareproblem und ließ den Hersteller ein identisches System für die Zustellung am selben Tag senden. Der neue Server war ein vollständig identischer Build mit Ausnahme von Festplatten. Wir haben die Festplatten vom alten auf den neuen Server verschoben. Auf der Ersatzhardware ist das gleiche zufällige Startproblem aufgetreten.

Ich habe jetzt beide Server parallel laufen. Das Problem trifft zufällig auf warme Stiefel. Kalte Stiefel scheinen das Problem nicht zu haben. Ich untersuche einige der esoterischeren BIOS-Einstellungen wie das Deaktivieren von Turbo Boost oder das Deaktivieren der Stromkalibrierungsfunktion vollständig. Ich könnte das versuchen, aber sie sollten nicht notwendig sein.

Irgendwelche Gedanken?

--bearbeiten--

Systemdetails:

  • DL360 G7 - 2 x X5670 Hex-Core CPUs
  • 96 GB RAM (12 x 8 GB Low-Voltage-DIMMs)
  • 2 x 146 GB 15k SAS Festplatten
  • 2 x 750W redundante Netzteile

Alle Firmware-Versionen entsprechen dem aktuellen HP Service Pack für ProLiant DVD-Version.

Als ich HP anrief und das Interwebz schleppte, habe ich von einer schlechten IAO 3-Interaktion gesprochen, aber das passiert auch mit dem Server auf einer physischen Konsole. HP schlug auch eine Stromquelle vor, die sich jedoch in einem Rechenzentrums-Rack befindet, das andere Produktionssysteme erfolgreich mit Strom versorgt.

Besteht die Möglichkeit, dass dies eine schlechte Interaktion zwischen Niederspannungs-DIMMs und den 750-W-Netzteilen sein könnte? Dieser Server sollte eine unterstützte Konfiguration sein.


39
2018-01-10 17:16


Ursprung


Irgendeine Möglichkeit, die Platten als mögliche Ursache zu beseitigen? Irgendeine Möglichkeit, die Sie mit einigen alternativen SAS- oder SATA-Festplatten testen können? - ErnieTheGeek
Ja, getestet mit einem bekannt guten Diskettensatz im zweiten System. Sie laufen parallel. - ewwhite
Das einzige Mal, dass ich das gesehen habe, war in einem System (auch ein DL360 G7), wo ich versuchte, eine Nicht-HP-Karte zu verwenden, um Speicher bereitzustellen. Als ich sowohl die SmartArray Karte als auch diese andere dort hatte, tat es das. Als ich entweder rauskam, verging es. Das ist nicht dein Problem, aber ich gebe weiter, auf was ich gestoßen bin. - sysadmin1138♦
Möglicherweise etwas Netzwerkbezogenes? Versuchen Sie zu duplizieren, ohne mit dem Netzwerk verbunden zu sein. - ErnieTheGeek
@TheCleaner Das Deaktivieren der dynamischen Leistungsbegrenzung ist keine Option auf G7-Servern. Es wurde für die Gen8 ProLiant Serie eingeführt. - ewwhite


Antworten:


Also, nachdem du ein gebracht hast dritte System in den Mix, und das gleiche Problem zu erfahren, begannen wir, die Umwelt in Frage zu stellen. Ich habe eine Kopie der HP ProLiant Server - Handbuch zur Fehlerbehebung und fand das unten gezeigte POST-Problem-Flussdiagramm.

enter image description here

Nachdem wir die Schritte in der Tabelle sorgfältig durchgegangen sind, haben wir festgestellt, dass die einzige Konstante auf allen Servern ein KVM-Switch ist, der an den Crash-Cart des Rechenzentrums angeschlossen ist. Dies war ein USB-fähiger KVM der Verbraucherklasse. Gemäß dem hervorgehobenen Knoten im Flussdiagramm, Kennen Sie eine gute KVM?Ich konnte nicht abschließend antworten.

Also haben wir die Server vom KVM-Switch getrennt und einen automatischen Start ausgeführt, sleep 300; reboot Sequenz in rc.local. Die Server hatten keine Probleme damit, ungeachtet des normalen DIMM, der Niederspannungs-DIMMs, der Netzteil-Wattzahl usw.

Dies war das Ergebnis einer schlechten Interaktion mit einem USB-KVM-Switch. Dadurch, dass dies die Konsole war, stellte es sicher, dass wir das Scheitern sehen würden, wenn wir danach suchen würden. Selbsterfüllend ...


42
2018-01-11 22:46



Wow, das ist ein guter! Ich bin froh, dass du das herausgefunden hast. - nedm
Heilige Krähe. +1 zu Frage und Antwort. Gute Arbeit; Das hätte ich wahrscheinlich übersehen. "Bekannt gut"? Natürlich ist es gut bekannt - es funktioniert, oder? - mfinni
Vielen Dank!!! es war definitiv die KVM. Trennen Sie einfach das Video und schließen Sie den Monitor direkt an und der Server läuft wieder reibungslos. Nach dem O.S. laden Ich steckte den KVM zurück. Ich denke, dass das Problem verursacht wurde, als ich zufällig die Kabel in der Rückseite des Servers berührte. Das System hat angehalten und reagiert nur auf diesen Hinweis.
Irgendeine Idee, wie eine KVM das verursachen würde? - TheLQ
@TheLQ Ein billiges Consumer-Level-KVM-Gerät war hier die Ursache. Möglicherweise ist auch ein Problem mit der Tastatur aufgetreten. - ewwhite