Frage Ist es bei einem Dual-CPU-Server normal, dass eine CPU heißer läuft als die andere?


Ich habe einen Dual-Opteron-Server, auf dem Linux mit libvirt läuft, um mehrere VMs zu hosten. Die VMs funktionieren gut und der Server verarbeitet OK, aber ich stelle fest, dass eine CPU immer etwa 69C (Throttles bei 70C) und die andere etwa 15C läuft.

Das erscheint mir nicht normal? Sollten sie beide nicht ein wenig näher bei der Temperatur sein?

Ich bin mir nicht sicher, wie ich weitermachen soll. Vielleicht gibt es nicht genug Wärmeleitpaste auf einer der CPUs?

Edit: Das Motherboard ist ASUS KGPE-D16 und gekühlt von Dual Noctua NH-U9DO Fans.

Beachten Sie, dass ich denke, dass die Temperaturen oberhalb der Umgebungstemperatur und nicht in absoluten Werten liegen können. Wenn der Server im Leerlauf ist, fallen die CPU-Temperaturen auf 2C und 13C. Ich verwende die lmsensors-Konfiguration von Hier


47
2017-11-27 12:28


Ursprung


Was ist das Servermodell? - ewwhite
Wie ist die Verteilung der CPU-Auslastung? mpstat -P ALL 1 auf Linux wird helfen - Christopher Perrin
Klingt wie gebrochener Temperatursensor - matcheek
15C ist sehr wahrscheinlich ein gebrochener Zensor .... - Reaces
Scheint wie ein kaputter oder schlecht kalibrierter Sensor, wenn Sie den Server neu starten können, schauen Sie sich das BIOS an, das korrekte Werte anzeigen sollte.


Antworten:


Das Problem endete damit, dass es sich um einen schlecht sitzenden Kühlkörper handelte. Vielleicht schlecht passend ist nicht die richtige Beschreibung. Stellt sich heraus, müssen Sie Wärmeleitpaste auf den Kühlkörper, nicht die Kunststoffabdeckung, die über den Kühlkörper geht.

enter image description here

Nach dem Entfernen der Kunststoffabdeckung ist die CPU nett und cool, danke an alle!


106
2017-11-28 00:18



+1, nur weil es lustig ist - HBruijn
Du meinst, jemand hat die Plastikabdeckung an Ort und Stelle gelassen und dann Paste darauf gelegt und dann den Kühlkörper darauf gelegt? Epos. - TomTom
Baaaaaahaaaaaaahahahaa !! - Craig
Ich liebe, wie Sie die Bedingungen, beschränkte Garantie und Rückholpolitik im Hintergrund sehen können. :) - Lightness Races in Orbit
Wenn du dich weniger dumm fühlst (und es auch nicht tut), habe ich eine ähnliche Sache mit meiner neuen Bürokaffeemaschine gemacht. Der Kaffee war zu kalt, um ihn zu trinken, und ich packte ihn für die Rückkehr in den Laden wieder zusammen, bevor eine Scheibe Schutzkarton vom Heizelement herunterkam :) - Martin James


Nach meiner Erfahrung ist es normal, dass gepaarte Komponenten in einem Gehäuse bei unterschiedlichen Temperaturen laufen, da der Luftstrom nicht überall gleich ist. Hier ist ein Diagramm der HDD-Temperatur von meiner Colobox. Die Laufwerke werden gespiegelt, sodass die Arbeitsauslastungen nahezu identisch sind.

munin graph of HDD temps over past year

Wie Sie sehen können, verfolgen sie einander, aber sie sind nicht gleich; Sie sind auch im Durchschnitt nur 6 C voneinander entfernt. Unabhängig davon, ob Ihre Sensoren eine absolute Temperatur oder eine Übertemperatur melden, scheint eine Differenz von 55C unter Last sehr schlecht zu sein. Wenn Sie sich sicher sind, dass die Daten richtig sind, würde ich angesichts der Tatsache, dass der Ruheunterschied auf 10C fällt, was die Art von Unterschied ist, die ich aufgrund des Luftstroms sehe, einen schlecht sitzenden Kühlkörper vermuten.


23
2017-11-27 12:53



Mit mpstat (von Christopher Perrin, danke!) Habe ich bestätigt, dass die Last ziemlich gleichmäßig verteilt ist. Die Dinge sind gerade im Leerlauf bei + 3C und + 20C. Ich werde versuchen, mit dem Kühlkörper zu hantieren, um zu sehen, ob es locker ist. Denkst du, es könnte ein Problem mit der Wärmeleitpaste sein? - samoz
Das ist sehr möglich (und mehr, nachdem Sie anfangen, es zu wackeln). - MadHatter


Es ist nicht. Es sei denn, Sie haben ernsthafte Probleme mit dem Luftstrom. Oder einer der Kühler ist schlecht. Temperatur variiert - aber nicht so viel (70 vs 15 Grad Celsius).

Angesichts der niedrigen 15 Grad würde ich annehmen, (a) Ihr Sensor ist ausgeschaltet (Sie speichern den Server wirklich in einem solchen kühlen Raum?).

Ich würde auch annehmen, dass eine der CPU überhaupt keine Arbeit hat, aus welchem ​​Grund auch immer.

Kleine Unterschiede sind normal. Einige etwas größere können sein (Luftstrom kommt mir in den Sinn). aber hier reden wir über ein kalt sein.


7
2017-11-27 12:31





Dies könnte entweder eine kühle oder ungleichmäßige Belastung sein (angesichts der Temperaturdifferenz ist Ihre Situation wahrscheinlich ungleichmäßig). Sie sollten etwas wie prime95 verwenden, um alle Kerne gleichmäßig zu laden und zu sehen, ob die Temps noch variieren. Wenn dies nicht der Fall ist, müssen Sie die VMs ausbalancieren. Überprüfen Sie, ob Ihre Apps multithreadfähig und ausgelastet sind. Wie das zu tun ist, hängt von Ihrer Software und der individuellen Arbeitslast ab und ist daher wirklich über den Rahmen der Frage hinaus. Denken Sie daran, dass es keinen wirklichen Vorteil hat, dies zu tun, wenn Sie nicht genug Ladung haben, um einen einzelnen CPU / Core zu übertreffen. Ihre VM könnte bewusst vermeiden, eine zweite CPU zu verwenden, damit sie in Energiesparmodi auf Multi gehen kann -cpu-Systeme.

Wenn Sie es auf Kühlung eingeschränkt haben. Ein kleiner Unterschied von bis zu 10C könnte zu wenig (oder zu viel!) Wärmeleitpaste sein. Ein größerer Unterschied zeigt ein signifikantes Problem oder einen Unterschied zwischen CPU-Kühlern an. Es könnte sein, dass einer den Luftstrom blockiert hat, ein Kühlkörper wurde losgestoßen usw.


2
2017-11-27 12:38





Dem müsste ich zustimmen, defekte Temp. Sensor, wie 15C ist nur 59F !!! Wenn sich der Computer nicht in einem extrem kalten Rechenzentrum befindet, würde ich mir vorstellen, dass die Temperatur der Umgebungsluft höher als 59F wäre! Sie versuchen, die VMs dem Tieftemperaturkern zuzuordnen und zu prüfen, ob sich Änderungen ergeben haben. Wenn nicht, würde ich sehr vermuten, dass der Sensor fehlerhaft ist.

Vielleicht möchten Sie auch die Ausgabe von dmesg (Boot-Nachrichten) und sehen, ob da etwas Außergewöhnliches ist.


0
2017-12-01 11:42