Frage Der RabbitMQ Hochverfügbarkeitscluster mit zwei Knoten bricht zeitweise mit Veeam-Sicherungsjobs ab


Die Umgebung besteht aus zwei 2012R2 Virtual Machines, auf denen RabbitMQ in hoher Verfügbarkeit (ha-all) in ihren Warteschlangen läuft. Ich verwende Veeam, um Snapshot-Backups zu erstellen, die als Teil der DR-Richtlinie extern gesendet werden.

Was ich sehe, sind zeitweilige Ausfälle des Clusters bei der Veeam-Sicherung. Wenn der Cluster unterbrochen wird, werden Mnesia-Ereignisse protokolliert, oder ein Knoten wird manchmal vollständig ausgeschaltet. Ich glaube, das Problem ist, wie die VM von Veeam geblopt wird, wo sie die VM für einen kurzen Moment pausiert und dann fortsetzt. Wenn dieser Blip auftritt, sehen beide Knoten den anderen verschwinden und der sekundäre fördert sich sofort zu meistern. Wenn zwei Master laufen, sobald sie sich sehen (buchstäblich Sekunden später), stoßen sie aneinander und der Cluster bricht.

ich lese über net_ticktime  Hier und implementierte 300 Sekunden, um zu denken, dass dies helfen würde, den Cluster gegenüber den kurzen Veeam-Blips widerstandsfähiger zu machen, aber es scheint nicht geholfen zu haben. Wenn ein Knoten sieht, dass der andere verschwindet, fördert sich der sekundäre, um ihn sofort zu beherrschen, und er scheint das nicht zu nutzen net_ticktime Rahmen.

Beispiel Mnesia Fehler:

Mnesia('rabbit@Node01'): ** ERROR ** mnesia_event got {inconsistent_database, running_partitioned_network, 'rabbit@Node02'}

Hat jemand anderes dies oder etwas Ähnliches erlebt? Gibt es zusätzliche Konfigurationseinstellungen mit RabbitMQ oder Erlang, die dazu beitragen könnten, dass der Cluster weniger anfällig für Verbindungsverluste zwischen den Knoten wird?


5
2018-04-18 16:38


Ursprung




Antworten: