Frage Ursache der TCP-Neuübertragung in einem LAN finden


Hallo Bewohner von Server Fault

Ich habe ein irritierendes Problem mit einem LAN von ungefähr 100 Computern, 2 Windows Domain Servern und 12 VoIP Telefonen. Seit ihrer Installation vor etwa einem Jahr, etwa jede Woche, stellen wir fest, dass sich ein VoIP-Telefon - gelegentlich in der Mitte eines Anrufs - zurücksetzt. Gleichzeitig gibt es oft Anzeichen für einen vorübergehenden Verlust der Verbindung auf Computern: Beim Zugriff auf Netzwerkfreigaben im Explorer und bei Fehlern in unserer Verwaltungssoftware aufgrund eines Verbindungsabbruchs zum Datenbankserver wird die Verbindung unterbrochen.

Ich habe einige Wireshark-Überwachung auf der Verbindung zwischen der VoIP-PBX und dem Rest des Netzwerks gemacht. Wireshark greift zu den Zeiten, zu denen wir Telefon-Neustarts aufzeichnen, eine Gruppe von neu übertragenen TCP-Paketen auf. Das Wireshark-Protokoll zeigt ungefähr 2 Cluster von Neuübertragungen pro Tag, die von 5 Paketen bis zu Hunderten reichen. Die in jedem Cluster sind hauptsächlich zwischen der PBX und einigen VoIP-Telefonen, aber nicht immer die gleichen. Oftmals werden Sendewiederholungen gleichzeitig an Telefone gesendet, die mit dem gleichen Switch verbunden sind, aber manchmal wiederholen sich die Sendewiederholungen zusammen zu den Telefonen an den gegenüberliegenden Enden des Netzwerks. Bei der Weiterleitung von TCP-Datenverkehr, z. B. zwischen Client-Computern und Dateiservern, gibt es normalerweise einige gleichzeitige Übertragungen.

Die Spikes bei erneuten Übertragungen und Telefon-Resets korrelieren nicht gut mit dem Fall, wenn das Netzwerk stark belastet ist. Sie scheinen im Laufe des Tages etwas mehr zu passieren, aber am meisten abends, wenn der Verkehr abnehmen sollte. Sie treten relativ spät nachts auf, wenn die meisten Computer ausgeschaltet sind und der Verkehr am geringsten sein sollte.

Haben Sie irgendwelche Ideen, die helfen könnten, die Ursache solcher Probleme zu diagnostizieren? Eine Sache, die ich noch nicht versucht habe, aber haben sollte, ist das Aktualisieren der Firmware aller Schalter.


21
2018-05-20 21:47


Ursprung


Welches Modell schaltet? Wie sehen Prozessoren, Memeorie, usw. aus? Sind Sie in einer Broadcast-Domain? Wie nah am maximalen Durchsatz sehen Sie im Netzwerk? - Zypher
Welches VoIP-Protokoll verwendest du? Auch mit UDP oder TCP? - Chris S
Alle Switches sind 3Com: Baseline 2924 - PWR Plus (3CBLSG24PWR) × 2, 4200 (3C17304A) × 3, 4200 (3C17304) × 2, 2824-SPF Plus (3C16487), 2250 plus (3C16476CS). Ich glaube nicht, dass sie Statistiken über Prozessor oder Speicher geben, aber ich wäre sehr erfreut, etwas anderes zu erfahren. Ja, wir sind in einer Broadcast-Domain. Ich weiß nicht über den Durchsatz, ich werde es untersuchen. - Surreal


Antworten:


TCP-Neuübertragungen sind normalerweise auf Netzwerküberlastung zurückzuführen. Suchen Sie nach einer großen Anzahl von Broadcast-Paketen zum Zeitpunkt des Auftretens des Problems. Wenn der Prozentsatz des Broadcastverkehrs in Ihrer Erfassung über etwa 3% des erfassten Gesamtverkehrs liegt, haben Sie definitiv Engpässe. Suchen Sie nach Broadcasts für die physische Schicht (ARP) und die Netzwerkschicht (Namensauflösung) im Netzwerk. Wenn Sie eine hohe Menge an Broadcast-Datenverkehr feststellen, können Sie sie anhand der erfassten Daten zur Quelle zurückverfolgen.


13
2018-05-20 23:02



Darüber hinaus sind die TCP-Neuübertragungen nicht die Ursache für Ihr Problem, sie sind ein Symptom für das Problem. - joeqwerty
Ich hätte erwähnen sollen, dass ich mir die UDP-Sendungen angeschaut habe und sie nicht mit den Sendewiederholungen korreliert haben. Einige der Neuübertragungsereignisse fallen mit Spitzen bei UDP-Übertragungen zusammen, die meisten jedoch nicht. Ich habe einen anderen Blick gehabt und festgestellt, dass UDP-Broadcasts 1,5% des Traffics (etwa 350 Pakete) in keinem 10-Minuten-Zeitsegment überschreiten, und das Erreichen dieses Levels ist selten. Allerdings hatte ich keine Ethernet-Übertragungen gesehen. Ich führe jetzt ein Skript aus, um alle meine Wireshark-Logs zu filtern. Ist die 3% -Regel für UDP-Broadcasts und Ethernet-Broadcasts einzeln oder kombiniert? - Surreal
Die 3% sind nicht wirklich eine Faustregel. Es ist das, was mir gesagt wurde und was ich in meiner eigenen Umgebung gesehen habe. Ich habe Zahlen von 10 bis 20% gehört, aber ich habe festgestellt, dass es, wenn es 3 bis 5% übersteigt, normalerweise Probleme verursacht. Sie müssen sich den gesamten Broadcast-Verkehr ansehen: Ethernet-, Netzwerk- und Multicast-Broadcasts, da sie alle zu Überlastungen führen können. Grundsätzlich ist jeder Verkehr, der an alle Switch-Ports gesendet wird, Verkehr, der analysiert und reduziert oder eliminiert werden muss. - joeqwerty
Ich habe immer noch keine hübsche Grafik, um über lange Zeit nach einer guten Korrelation zu suchen, aber Ethernet-Übertragungen sehen ziemlich vielversprechend aus. Ein Protokoll, in dem die Übertragung stattfand, hatte etwas über 3%, ein weiteres etwa 6%. Ich habe zumindest ein Problem gefunden: Ein alter Server streut ständig unentgeltliche ARP-Pakete. - Surreal
Ich fand die übermäßigen ARP-Einträge mit dem Wireshark-Filter von arp - und um nur die Broadcast zu sehen, mit einem Filter von eth.addr==ff:ff:ff:ff:ff:ff - mlhDev


Wenn Sie Verkehrsstatistiken für Ihre Switches erfassen, werden möglicherweise Zeiträume angezeigt, in denen Sie mit oder in der Nähe der Kapazität arbeiten. Dies kann zu Wiederholungen führen, wenn die Antworten nicht innerhalb des anfänglichen Zeitlimits (oft 3 Sekunden) zurückkommen. Dies erhöht die Überlastung vorübergehend, bis Mechanismen zur Minderung von Verkehrsstaus einspringen.

Suchen Sie nach Leuten, die Streaming-Medien verwenden, da diese schnell Bandbreite aufnehmen können.

Sie können das Problem für die Telefone möglicherweise durch Traffic Shaping beheben. Dadurch wird das Problem nur auf andere Benutzer verschoben.


1
2018-05-21 01:04





Klingt wie eine Spanning-Tree-Schleife oder ein Broadcast-Sturm für mich, vor allem, wenn die Retransmissions und die Probleme auf denselben Switch lokalisiert sind (was anders ist). Wenn es passiert, was sind die Port-Zustände auf Ihrem L2-Gerät? Wahrscheinlich ein schlechter Switch oder schlechte Root-Bridge-Prioritäten? Interessantes Problem.


1
2018-05-21 01:09



Danke, dass du mich aufgefordert hast, überspannende Bäume zu lesen, über die ich peinlich ignorant bin. Ich denke jedoch nicht, dass es sich um eine Spanning-Tree-Schleife handeln könnte, da wir in unserem Netzwerk keine redundanten Verbindungen haben (möglicherweise ein Problem für sich). Unter "Port-Status auf Ihrem L2-Gerät" verstehe ich richtig, welche Ports die Switches aufgrund des Spanning-Tree-Algorithmus aktiviert haben? Wir haben keine Root-Bridge manuell konfiguriert, wäre es eine gute Idee, dies zu tun? - Surreal
Es ist eine gute Idee, sich mit STP vertraut zu machen, aber wenn Sie sicher sind, dass Sie keine redundanten Links haben, wird STP nicht das Problem sein. - joeqwerty
Ja, wenn du keine redundanten Links hast, wäre das kein Problem. Von Port States, ja, ich meine das sind vorwärts / blockiert / lernen. - McJeff


Sie haben das wahrscheinlich gelöst, da es so lange her ist, aber Sie müssen "port fast" auf den Ports aktivieren, die Endpoints (VoIP-Telefone, Workstations, Server) haben. Ein Telefon kann PDUs senden, wenn dieser Bursche also neu startet, wird eine STP-Konvergenz auftreten, was bewirkt, dass die FDB-Tabelle geleert wird und alle Geräte durch den 4/5 Schritt STP-Spaß gehen. Indem Ports mit Endpunkt in "Port Fast" gesetzt werden, überspringen sie das Warten und gehen direkt in den Weiterleitungsmodus.


1
2018-04-13 03:28





Hoffentlich sind Ihre Telefone in einem anderen Subnetz und VLAN von den anderen Computern?


0
2018-05-20 23:18



Nein, sie sind im selben IP-Subnetz und ich bin mir ziemlich sicher, dass es dasselbe VLAN gibt. Ist das ein ernstes Problem? Es klingt sicherlich so, als wäre es eine gute Idee. Ich kann sehen, es würde die Broadcast-Domains für Handys und alles andere trennen. Hätte es andere Vorteile? - Surreal
Ja, ich würde die Telefone definitiv auf ein dediziertes VLAN stellen. - Greg Askew


Es könnte sich auch um ein fehlerhaftes Gerät wie einen defekten Schalter handeln. Entsprechen die Weiterverbreitungen den Telefonen / Computern an einem bestimmten Switch oder Teil des Netzwerks?

Nur um meine Antwort ein wenig zu erweitern. Nicht alle Schalter sind gleich, auch wenn sie die gleichen Spezifikationen haben. Einige sind in der Lage, viel mehr Last zu bewältigen als andere, weil sie schnellere Prozessoren haben. Es könnte sein, dass Ihre Switches nicht ganz so gut sind.

Ich würde damit beginnen, einige der lästigsten VOIP-Telefone auf ihren eigenen physischen Switch zu stellen und zu sehen, ob die Resets darauf fortgesetzt werden. Wenn es weggeht, dann sind Sie auf dem Weg, es sehr bald zu lösen.


0
2018-05-20 23:34



Ich wünschte, sie hätten es getan. Es scheint das größte Problem mit Geräten zu sein, die mit zwei Schaltern verbunden sind, die sich an entgegengesetzten Enden des Netzwerks befinden. Es gibt jedoch auch in anderen Teilen des Netzwerks signifikante Übertragungen an Telefone. - Surreal