Frage Fibre-Channel-Fern-Probleme


Ich brauche ein frisches Paar Augen.

Wir verwenden eine 15 km lange Glasfaserleitung, über die Glasfaser und 10 GbE gemultiplext werden (passive optische CWDM). Für FC haben wir Langstreckenlaser, die bis 40km geeignet sind (Skylane SFCxx0404F0D). Der Multiplexer ist durch die SFPs begrenzt, die max. 4 Gbit Fibre Channel. Der FC-Switch ist eine Brocade 5000-Serie. Die jeweiligen Wellenlängen sind 1550, 1570, 1590 nm und 1610 nm für FC und 1530 nm für 10 GbE.

Das Problem ist, dass die 4GbFC-Gewebe fast nie sauber sind. Manchmal sind sie für eine Weile sogar mit viel Verkehr auf ihnen. Dann können sie plötzlich Fehler (RX CRC, RX-Kodierung, RX-Disparität, ...) selbst mit nur geringem Verkehr auf ihnen erzeugen. Ich füge einige Fehler- und Verkehrsgraphen bei. Bei 1 GB / s-Verkehr liegen die Fehler derzeit in der Größenordnung von 50-100 Fehlern pro 5 Minuten.


Optik

Hier ist die Leistung eines Ports zusammengefasst (gesammelt mit sfpshow auf verschiedenen Schaltern)

SITE-A-Einheiten = uW (Mikrowatt) SITE-B
**********************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      RX 95.2 TX 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok)
      RX 54.3 TX 1468.4

Was ich an dieser Stelle neugierig finde, ist die Asymmetrie in den Leistungspegeln. Während SW2 mit 1422uW sendet, welches SW4 mit 104uW empfängt, empfängt SW2 nur mit 54uW das SW4-Signal mit ähnlicher Originalleistung.

Umgekehrt für SW1-3.

Jedenfalls haben die SFPs eine Empfangsempfindlichkeit von bis zu -18dBm (ca. 20uW), also sollte es in Ordnung sein ... Aber nichts ist.

Einige SFPs wurden vom Hersteller als Fehlfunktionen diagnostiziert (die obigen 1550 nm mit "ko"). Die 1610nm sind anscheinend in Ordnung, sie wurden mit einem Traffic Generator getestet. Die Mietleitung wurde auch mehrfach getestet. Alles ist innerhalb der Toleranzen. Ich warte auf den Ersatz, aber aus irgendeinem Grund glaube ich nicht, dass es die Dinge besser machen wird, da die scheinbar guten keine ZERO-Fehler produzieren.

Früher war eine aktive Ausrüstung involviert (eine Art 4GFC Retimer), bevor das Signal auf die Leitung gesetzt wurde. Keine Ahnung warum. Diese Ausrüstung wurde wegen der Probleme eliminiert, so dass wir nur noch haben:

  • der Langstreckenlaser im Schalter,
  • (neu) 10m LC-SC Monomode-Kabel zum Mux (für jeden Stoff),
  • die Mietleitung,
  • das gleiche aber umgekehrt auf der anderen Seite der Verbindung.


FC-Schalter

Hier ist eine Port-Konfiguration aus dem Brocade portcfgshow (Offensichtlich ist es auf beiden Seiten so)

Bereichsnummer: 0
Geschwindigkeitsstufe: 4G
Wort füllen (Aktiv) 0 (Idle-Idle)
Fill Word (Aktuell) 0 (Idle-Idle)
AL_PA Offset 13: AUS
Amtsanschluss EIN
Langstrecken-LS
VC Link Init AUS
Gewünschte Entfernung 32 Km
Reservierte Puffer 70
Gesperrter L_Port AUS
Gesperrter G_Port AUS
Deaktivierter E_Port AUS
Gesperrter E_Port AUS
ISL R_RDY Modus AUS
RSCN unterdrückt AUS
Persistent Deaktivieren AUS
LOS TOV aktiviert OFF
NPIV-Fähigkeit EIN
QOS E_Port AUS
Automatische Port-Deaktivierung: AUS
Ratenbegrenzung AUS
EX Anschluss AUS
Spiegelanschluss AUS
Kreditwiederherstellung EIN
F_Port Puffer AUS
Fehlerverzögerung: 0 (R_A_TOV)
NPIV PP Limit: 126
CSCTL-Modus: AUS

Das Erzwingen der Links zu 2GbFC erzeugt keine Fehler, aber wir haben 4GbFC gekauft und wollen 4GbFC.

error and traffic graphs

Ich weiß nicht mehr wo ich suchen soll. Irgendwelche Ideen, was als nächstes zu versuchen oder wie weiter?

Wenn wir 4GbFC nicht zuverlässig arbeiten lassen können, frage ich mich, was die Leute, die mit 8 oder 16 arbeiten, tun ... Ich gehe nicht davon aus, dass "ein paar Fehler hier und da" akzeptabel sind.

Ach und BTW wir sind in Kontakt mit jedem der Hersteller (FC-Switch, MUX, SFPs, ...) Außer den SFPs, die geändert werden sollen (einige wurden vorher geändert) hat niemand eine Ahnung. Brocade SAN Health sagt, dass der Stoff in Ordnung ist. MUX, nun, es ist passiv, es ist nur ein Prisma, Natur vom Feinsten.

Irgendwelche Schüsse in der Dunkelheit?


 ANHANG: Antworten auf Ihre Fragen

@ Chopper3: Dies ist die zweite Generation von Brocades, die das Problem aufzeigt. Bevor wir 5000 hatten, haben wir jetzt 5100. Anfangs, als wir noch den aktiven MUX hatten, mieteten wir einmal einen Ferndistanzlaser, um ihn direkt in den Schalter zu stellen, um Tests für einen Tag zu machen, an diesem Tag war es natürlich sauber. Aber wie gesagt, manchmal ist es einfach so sauber. Und manchmal ist es nicht. Alternative Switches würden bedeuten, das gesamte SAN mit den nur zu testenden wiederherzustellen. Alternative SFPs, naja, sie sind einfach schwer zu finden.

@langer Hals: Die Linie ist vermietet. Es ist eine dunkle Faser (9um Monomode), also gibt es niemanden sonst. Sicher gibt es Spleiße. Ich kann nicht hingehen und schauen, aber ich muss darauf vertrauen, dass sie richtig gemacht wurden. Wie gesagt, die Linie wurde überprüft und nochmals überprüft (mit einem optischen Zeitbereichsreflektometer). Natürlich haben Sie nicht alle diese Geräte selbst, weil es viel zu teuer ist.

@mdpc: Was wäre die "falsche" Art von Kabel nach dir? Bis auf den Schalter ist alles monomodal, ja. Die Anschlüsse sind auch die richtigen. Ja, ich weiß, da sind die Grünen, wo die Faser in einem bestimmten Winkel abgeschnitten ist usw. Aber wir haben die richtigen für alles, was ich weiß.


 Fortschrittsbericht # 1

Wir hatten zwei Fabrics (= 2x2 Switches) mit Brocade 5100s mit FabricOS 6.4.1 und zwei Fabrics (weitere 2x4 Switches) auf FabricOS 7.0.2.

Auf den Langstrecken-ISLs (eine in jedem Fabric) stellte sich heraus, dass mit FOS 6.4.1, das auf Langdistanz eingestellt ist, Warnungen über die VC-Init-Einstellung und folglich das Füllwort ausgegeben werden. Aber das sind nur Warnungen. FOS 7.0.2 erfordert Sie können Änderungen an VCI und das Füllwort für Fernverbindungen vornehmen.

Die Einstellung von FOS 6.4.1 auf die LS-Einstellung (lange statische Distanz) mit falscher VCI- und Füllworteinstellung hat das gesamte Fabric außer Betrieb gesetzt (in einer SCN-Schleife stecken, verwenden fabriclog -s zu sehen, Sie sehen es nirgendwo anders, keine Portfehlerzähler oder irgendetwas, das erhöht).

Momentan gebe ich dem einen Fabric mit dem IMHO mehr richtige Einstellungen und es scheint gut zu laufen, während der andere ohne viel Traffic hier und da noch Fehler hat.

progress1

Zusamenfassend:

  • Wir haben den aktiven Teil des MUX (das FC-Retimer) eliminiert.
  • Wir setzen die SFPs für lange Strecken in die Endausrüstung selbst ein.
  • Nur um sicher zu sein, haben wir neue Monomode-Kabel gekauft, um die Endgeräte mit dem verbleibenden passiven Teil des MUX zu verbinden.
  • Wir probieren jetzt mehrere Fernkonfigurationen aus.

Es ist fast schwarze Magie. Alles, was passiert, ist größtenteils empirisch, niemand scheint eine Ahnung zu haben, was genau die Gründe sind, etwas zu tun. ("Wir haben das versucht, und es hat nicht funktioniert, dann haben wir das ausprobiert und es hat funktioniert, also haben wir uns daran gehalten." Aber niemand scheint wirklich zu wissen, warum.)

Ich halte dich auf dem Laufenden.


 Fortschrittsbericht # 2

Wir haben die neuen Laser für einen der Stoffe auf Garantie bekommen. Es ist ultra sauber sogar auf 4bbFC.

Sie senden mit ungefähr 2mW (3dBm), während die anderen nur 1,5mW (1,5dBm) senden, obwohl das wirklich genug sein sollte.

Das andere Gewebe (wo die Laser anscheinend in Ordnung sind) produziert immer noch ein oder zwei CRCs selten.

Verwenden sfpshow der SFP, der die tatsächlichen RX-Fehler erzeugt, zeigt

Status / Strg: 0x82
Alarmmerker [0,1] = 0x5, 0x40
Warn Flags [0,1] = 0x5, 0x40

Jetzt muss ich herausfinden, was das bedeutet. Ich bin mir nicht sicher, ob es vorher dort war.

Nun, ich werde zuerst meinen Kopf mit einer Woche Urlaub räumen. 8-)


52
2017-08-26 22:02


Ursprung


Vor allem, große Frage, wofür genau diese Seite ist, gut gemacht. Zweitens haben Sie Zugang zu alternativen Switches / SFPs - idealerweise zu einem anderen Hersteller / Modell, das Sie zum Testen eintauschen könnten? - Chopper3
Tolles Update, mach weiter so, ich wünschte, ich hätte ein paar Vorschläge oder Ratschläge, aber du bist auf dem richtigen Weg, schön, einen neuen User auf SF zu finden, der seine Sachen kennt :) - Chopper3
Gibt es irgendwelche Übereinstimmungen in der Zeit oder Dauer der Fehler? Treten sie immer um N Uhr auf? Dauern sie immer X Minuten? Können Sie sie mit Wetter, Sportveranstaltungen in der Nähe oder anderen Phänomenen in Beziehung setzen? Intermittierende Probleme sind die am schwersten zu quetschenden Fehler, und normalerweise beginne ich sie zu attackieren, indem ich die Zeiten und die Dauer auf einem Whiteboard grafisch darstelle. Hoffentlich entstehen Muster, mit denen man korrelieren könnte anderes Phänomen. - dotancohen
Verfolgen Sie sie auf einem für sie sichtbaren Whiteboard jeder? Ich werde nicht drücken, aber ich kann es nur wärmstens empfehlen. Wie du gesagt hast, brauchst du ein frisches Augenpaar und vielleicht sieht jemand in deiner Organisation, dass das Muster aus den Zeiten / Zeiträumen und nicht unbedingt aus den Symptomen hervorgeht. - dotancohen
Hallo Marki. Ich weiß nicht genau, wovon Sie sprechen, aber bei Ihrem letzten Update scheint das Problem durch die Ersatz-SFPs behoben zu sein. Wenn ja, dann ist es wahrscheinlich eine gute Idee, dies als Antwort zu veröffentlichen und eine neue Frage zu stellen, wenn Sie weitere Probleme haben. - Mark Henderson♦


Antworten:


Ok, ich muss wohl eine Antwort posten. In einem Wort ist es: darauf bestehen.

Das Problem ist nicht zu 100% nach meinem Geschmack gelöst, da wir immer noch einen Fabric mit 1 (einem) CRC-Fehler sporadisch haben. Der andere ist sauber. Aber damit kann ich leben.

In jedem Fall werden wir die CWDM-Geräte nicht sehr lange verwenden, sondern nächstes Jahr auf einen passiven DWDM-Multiplexer umsteigen, da sich unsere Infrastruktur stark verändern wird. Anscheinend sind DWDM-Laser weniger teuer als die CWDM-Laser. Oh, wir werden sehen, und vielleicht werde ich dann viele Probleme haben, dich zu fragen :-)


Aktualisieren Zu dem oben genannten haben wir CWDM wieder gekauft, und es ist wirklich weniger teuer. AFAICS für bestimmte Anwendungen jedoch, Sie haben DWDM zu gehen, weil es keine CWDM-Laser dafür gibt. Schließlich haben wir versucht, so nah wie möglich an den Hersteller heranzukommen und das Ganze kam mit etwa 1/5 des Preises verglichen mit dem Kauf von einem Händler oder sogar einem Integrator.


So kann ich schließen, wenn Sie eine Lösung gekauft haben, die nicht wie erwartet funktioniert: bestehen Sie darauf. Auf der technischen Seite haben wir zwei Dinge getan

  • entferne den aktiven Teil des MUX (kann nicht sagen, dass ich das bereue, aber auch nicht sicher, ob das schließlich eine weitere Fehlerquelle war oder nicht)
  • Lassen Sie die SFPs gründlich prüfen

(Und natürlich alle Standard-Diagnose, ändern Sie eine Sache nach der anderen, sehen, was passiert usw., müssen Sie nicht sagen, dass. Also überprüften wir jede Zeile und Kabel usw. auch, leider auf unsere Kosten.)

In diesem Fall dauerte es lange, bis wir darauf bestanden, aber schließlich gelangten wir auf das Niveau, wo der Hersteller selbst einige Leute und etwas Ausrüstung verschonte, um die Kontrollen durchzuführen, die halfen. Und natürlich haben wir den Integrator dafür bezahlen lassen, da unsere Hardware gewartet wird. Das war also sowohl eine kommerzielle als auch eine technische Herausforderung.

PS. Oh, und die Flaggen, die ich in meinem letzten Update erwähnt habe, zeigten nichts Schlechtes an, aber ich erinnere mich nicht, was sie genau bedeuteten. Wenn ich die Aussage finde, werde ich die Antwort der Vollständigkeit halber aktualisieren.


Am Ende hatten die Flaggen doch etwas Schlimmes. Offensichtlich ist es jedoch nicht sicher, welche Seite der Verbindung die Ursache für die Fehler ist. Also muss auch dieses Paar geändert werden.

Oh und BTW, 8GbFC DWDM-Transceiver sind nur billiger im Vergleich zu 8G CWDM ;-) Der günstigste Weg ist 4GbFC auf CWDM und dann verwenden Sie ISL-Trunking (wenn Sie die Lizenz haben)


4
2017-11-02 20:02



Ich habe das nicht gesehen, als es leider gefragt wurde. Ich kann Ihnen nicht mit Sicherheit sagen, dass dies helfen würde, aber wenn Sie Leerlauf-Füllwörter verwenden, senden Sie viel Licht. Das bedeutet, dass jeder unbenutzte Rahmen viel Strom verbraucht und viel Wärme auf dem SFP erzeugt, denke ich. Das Ändern des Füllworts in einen anderen Modus (ich benutze Modus 3, aber ich habe einen anderen Schalter und SFP) könnte Ihnen erlauben, mehr Durchsatz mit weniger Fehlern zu pushen. - Basil
@Basil Ich wusste, dass das korrekte Füllwort ein Problem für die Wortsynchronisation bei 8GFC war, aber ich habe darüber nachgedacht ... - Marki
Es wird empfohlen, es zu jeder Zeit zu benutzen - soweit ich es beurteilen kann, ist es eine Frage, wie viel Interferenz ein leerer Frame durch sein SFP verursacht. - Basil