Frage Schäden an Geräten nach einem Blitzeinschlag - Sollte ich mehr geplant haben?


Eine meiner Kunden hat in der letzten Woche einen direkten Blitztreffer bekommen (zufälligerweise auf Freitag der 13!).

Ich war von der Seite entfernt, aber als ich mit jemandem vor Ort zusammenarbeitete, entdeckte ich ein merkwürdiges Schadensmuster. Beide Internetlinks waren ausgefallen, die meisten Server waren nicht erreichbar. Ein Großteil des Schadens ereignete sich in der MDF, aber eine Faser verbunden IDF verloren auch 90% der Ports auf einem Switch-Stack-Mitglied. Genug Ersatz-Switch-Ports waren verfügbar, um die Verkabelung anderswo neu zu verteilen und neu zu programmieren, aber es gab Ausfallzeiten, während wir die betroffenen Geräte jagten.

Dies war ein neues Gebäude / Lager und viel Planung wurde in die Gestaltung des Serverraums gesteckt. Der Hauptserverraum ist von einem APC SmartUPS RT 8000VA Online-USV mit doppelter Umwandlung, die von einem Generator unterstützt wird. Es gab eine angemessene Energieverteilung an alle angeschlossenen Geräte. Offsite-Datenreplikation und Systemsicherungen waren vorhanden.

Insgesamt war der Schaden (von dem ich weiß):

  • Fehlgeschlagene 48-Port-Leitungskarte auf a Cisco 4507R-E Chassisschalter.
  • Fehlgeschlagen Cisco 2960 Switch in einem 4-Mitglieder-Stack. (oops ... loses Stapelkabel)
  • Mehrere flockige Ports auf einem Cisco 2960 Switch.
  • HP ProLiant DL360 G7 Motherboard und Netzteil.
  • Elfiq WAN-Link-Balancer.
  • Ein Multitech Faxmodem.
  • WiMax / Fixed-Wireless-Internet-Antenne und Power-Injektor.
  • Zahlreiche PoE-verbundene Geräte (VoIP-Telefone, Cisco Aironet Access Points, IP-Sicherheitskameras)

Die meisten Probleme waren mit dem Verlust eines kompletten Switch Blade im Cisco 4507R-E verbunden. Dies enthielt einige der VMware NFS-Netzwerke und den Uplink zur Firewall der Site. Ein VMWare-Host ist fehlgeschlagen, aber HA hat sich um die Wiederherstellung der Storage Networking-Konnektivität der VM gekümmert. Ich wurde gezwungen, eine Reihe von Geräten neu zu starten, um Funkzustände zu löschen. Die Zeit bis zur Genesung war kurz, aber ich bin gespannt, welche Lektionen gelernt werden sollten ...

  • Welche zusätzlichen Schutzmaßnahmen sollten zum Schutz der Ausrüstung in der Zukunft eingeführt werden?
  • Wie sollte ich mich der Garantie und dem Ersatz nähern? Cisco und HP ersetzen Artikel, die unter Vertrag stehen. Der teure Elfiq WAN Link Balancer hat eine Klappentext auf ihrer Website das sagte im Grunde "zu schade, benutze a Netzwerk-Überspannungsschutz". (scheint, als erwarteten sie diese Art von Versagen)
  • Ich war lange genug in der IT-Abteilung, um in der Vergangenheit auf Schäden durch elektrischen Sturm zu stoßen, aber mit sehr begrenzten Auswirkungen; z.B. eine preiswerte PC-Netzwerkschnittstelle oder die Zerstörung von Mini-Switches.
  • Gibt es noch etwas, was ich tun kann, um potentiell flockige Geräte zu erkennen, oder muss ich einfach warten, bis merkwürdiges Verhalten auftaucht?
  • War das alles nur Pech oder etwas, das bei der Notfallwiederherstellung wirklich berücksichtigt werden sollte?

Mit genügend $$$ ist es möglich, alle Arten von Redundanzen in einer Umgebung aufzubauen, aber was ist eine vernünftige Balance zwischen präventivem / durchdachtem Design und effektiver Nutzung von Ressourcen hier?


55
2017-07-16 13:11


Ursprung


Einige gute technische Antworten unten, aber meiner Erfahrung nach, nichts schlägt eine gute Versicherungspolice. Wörtlich, eine Versicherungspolice. Sicher, es hilft nicht, das Problem zu vermeiden, und es hört nicht auf, dass Kunden Sie anschreien, aber es hilft beim Ersetzen der gescheiterten Ausrüstung, die der Verkäufer nicht berührt. - Mark Henderson♦
@MarkHenderson Insurance kommt durch ... aber es war 6 Wochen, und einige kleine Probleme tauchen jetzt auf. - ewwhite


Antworten:


Vor ein paar Jobs war eines der Datenzentren für den Ort, an dem ich arbeitete, eine Etage unter einer sehr großen Antenne. Dieser große, dünne Metallgegenstand war das Größte in der Gegend und wurde alle 18 Monate vom Blitz getroffen. Das Rechenzentrum selbst wurde um 1980 gebaut, daher würde ich es nicht als das Modernste bezeichnen, aber sie hatten eine lange Erfahrung im Umgang mit Blitzschäden (die seriellen Kommunikationskarten mussten ersetzt werden) jedes MalDies ist ein Versuch, wenn die Kommunikationskarten in einem System sind, das keine neuen Teile in 10 Jahren hergestellt hat).

Eine Sache, die von den alten Händen aufgeworfen wurde, ist, dass all dieser falsche Strom einen Weg um irgendwas finden kann und sich in einem gemeinsamen Boden ausbreiten kann, sobald er einbrückt. Und er kann aus Luftspalten eindringen. Blitz ist ein Ausnahmefall, bei dem normale Sicherheitsstandards nicht ausreichen, um Lichtbögen zu verhindern, und so weit gehen, wie es Energie hat. Und es hat viel. Wenn genügend Energie zur Verfügung steht, kann es von einem abgehängten Deckengitter (vielleicht hängt einer der Aufhängungsdrähte an einer Schleife mit Verbindung zu einem Gebäudeträger im Zement) an die Spitze eines 2-Säulen-Gestells und von dort in die Networking-Goodies.

Wie bei Hackern gibt es nur so viel, was Sie tun können. Ihre Stromversorgungen haben alle Unterbrecher, die Störspannungen spannen, aber Ihre Niederspannungsnetzwerke tun dies fast nie und stellen einen gemeinsamen Pfad für einen extrem energiereichen Strom dar.


Potentiell flockige Bausätze zu erkennen ist etwas, das ich in der Theorie weiß, aber nicht in der Realität. Wahrscheinlich ist es am besten, die verdächtige Ausrüstung in einen Bereich zu legen und die Temperatur im Raum bewusst auf das obere Ende der Reichweite zu bringen und zu sehen, was passiert. Führe ein paar Tests durch, lade das ganze raus. Lass es für ein paar Tage dort. Die zusätzliche thermische Belastung gegenüber einem bereits vorhandenen elektrischen Schaden kann einige Zeitbomben ausmerzen.

Es hat definitiv die Lebensdauer einiger Ihrer Geräte gekürzt, aber herauszufinden, welche schwer ist. Stromversorgungskreisläufe in Stromversorgungen können kompromittierte Komponenten enthalten und dem Server schmutzige Energie zuführen, etwas, das nur durch den Einsatz von spezialisierte Geräte entwickelt, um Netzteile zu testen.


Blitzangriffe sind nichts, was ich für DR in Erwägung gezogen habe, außer dass ich einen DC in einer Einrichtung mit einem Riesenableiter auf dem Dach. Im Allgemeinen ist ein Streik eines der Dinge, die so selten passieren, dass es unter "Akt des Gottes" gemischt und bewegt wird.

Aber ... du hast jetzt eins. Es zeigt, dass Ihre Einrichtung mindestens einmal die richtigen Bedingungen hatte. Es ist Zeit, eine Einschätzung zu erhalten, wie anfällig Ihre Einrichtung die richtigen Bedingungen erhält und dementsprechend planen. Wenn Sie jetzt nur an die DR-Auswirkungen des Blitzes denken, halte ich das für angemessen.


22
2017-07-18 12:38



Ich ging gestern vor Ort, um zu bewerten. Unordentlich. Ich reparierte den Gehäuseschalter und überprüfte den Schaden einiger Server. Gibt es eine Chance, dass die WiMax / Fixed-Wireless-Antenne auf dem Dach der Einstiegspunkt war? Alles auf seinem Weg war betroffen: Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard - ewwhite
Das klingt ... ziemlich wahrscheinlich. - mfinni
@ewwhite Das klingt sehr wahrscheinlich. Der Schaden, als der alte DC getroffen wurde, war sehr ähnlich. - sysadmin1138♦
Ich möchte dem Beitrag von sysadmin1138 etwas Weisheit hinzufügen (tut mir leid, dass ich noch nicht kommentieren darf, wollte das nicht als Antwort) ... Erdungsstifte an Stromkabeln sind für die menschliche Sicherheit, nicht für Ihre Geräte. In kleinen Büros; Ich halte wichtige Maschinen vom Boden (Holzkiste, Gummimatte) und nicht geerdeten Steckern / Adaptern UPS-> Wall. Ich bin sicher, OSHA hasst es, aber die Computer lieben es. Es hilft auch, wenn das Gitter deaktiviert und wieder aktiviert wird, da diese Überspannungen alles töten können. Ich war in einem Gebäude, als ein sehr, sehr großer Libert UPS / Inverter blies und seinen Technikern erklären musste, wie induktive Spikes ( - sirmonkey


Ich habe über diese Frage nachgedacht, seit sie vor kurzem auf den Anfang der Titelseite zurückgeschnitten wurde.

Ich gebe frei, dass für Leute wie sysadmin1138, die sich mit Installationen befassen müssen, die für große Blitzeinschläge auf dem Gleichstromdach sehr attraktiv sind, eine spezifische Notfallplanung für einen großen Streik sinnvoll ist. Aber für die meisten von uns ist das ein einmaliger Umstand, und ich dachte, eine Antwort, die für den Rest von uns allgemeiner ist, könnte einen gewissen Wert haben.

Es ist möglich, sich alle möglichen Arten vorzustellen Drohungen gegen Filmvorhaben; Szenarien, die auf jeden Fall eintreten könnten, würden zweifellos Ihre Geschäftsabläufe zum Erliegen bringen, aber es gibt keinen Grund zu der Annahme, dass eine erhöhte Wahrscheinlichkeit dafür besteht. Du kennst die Art von Sache; Flugzeugschlag / Blitz / Öldepot in der Nähe explodiert / jedes andere plausible-aber-Hintergrund-Risiko-Szenario.

Jeder von diesen hat einen spezifischen Mitigationsplan, der eingeführt werden könnte, aber ich würde vorschlagen, dass - modulo meine Bedingung oben - Es macht keinen geschäftlichen Sinn, dies zu tun. Wie Schneier im oben genannten Wettbewerb hervorhebt, nur weil man sich vorstellen kann, dass etwas Schreckliches passiert, ist es keine Bedrohung, gegen die sich eine konkrete Planung lohnt oder gar erstrebenswert ist. Was tut Ein sinnvoller Geschäftssinn ist ein allgemeingültiger, gut dokumentierter und getesteter Business-Continuity-Plan.

Sie sollten sich die Kosten eines vollständigen Standortverlustes für verschiedene Zeiträume (z. B. 24h, 96h, eine Woche, einen Monat) ansehen und versuchen, die Wahrscheinlichkeit jedes Auftretens zu quantifizieren. Es muss eine ehrliche Analyse der Geschäftskosten sein, die von allen Ebenen des Geschäfts eingekauft wird. Ich habe an einem Standort gearbeitet, wo die allgemein akzeptierte Zahl für Ausfallzeiten £ 5,5 Millionen / Stunde betrug (und das war vor 20 Jahren, als fünf Millionen Pfund eine Menge Geld waren); dass diese Zahl allgemein akzeptiert wurde so viele Entscheidungen so sehr einfacher, weil sie einfach eine einfache Mathematik geworden sind.

Ihr Budget ist der projizierte Verlust multipliziert mit der jährlichen Verlustwahrscheinlichkeit; Jetzt sehen Sie, was Sie tun können, um diese Bedrohung für das Budget zu verringern.

In einigen Fällen wird dies zu einem vollständigen Standby-Rechenzentrum mit kalter Ausrüstung führen, die rund um die Uhr einsatzbereit ist. Es kann ein kleines Bereitschaftsdatenzentrum bedeuten, so dass die Kundeninteraktion mit einer sehr geringen Anzahl von Telefonmitarbeitern fortgesetzt werden kann, und eine Platzhalterwebsite, die vor einer Störung warnt. Es kann eine zweite, redundant geführte Internetverbindung an Ihrem Hauptstandort bedeuten, die bis zum Gebrauch kalt ist. Es kann, wie Mark Henderson oben bemerkt, eine Versicherung bedeuten (aber eine Versicherung, die sowohl die Geschäftsverluste als auch die tatsächlichen Wiederherstellungskosten abdeckt); Wenn Sie Ihr BC-Budget auf einem einzigen Blatt Papier ausgeben können, das alle Ihre erwarteten Kosten im Falle einer Katastrophe deckt, kann es sinnvoll sein, dieses Stück Papier zu kaufen - aber vergessen Sie nicht zu Faktor Versagen des Underwriters in Ihren Geschäftsrisikoplan. Es kann bedeuten, dass die Wartungsverträge für bestimmte Kerngeräte auf extrem teure Vier-Stunden-Reparaturen aktualisiert werden. Nur Sie können wissen, was für Ihr Geschäft sinnvoll ist.

Und sobald du diesen Plan hast, Sie müssen es wirklich testen (mit möglicher Ausnahme von versicherungsbasierten). Ich habe an einem Standort gearbeitet, an dem wir eine komplette Kälteanlage im kleinen Maßstab hatten, die bereit war, in 45 Minuten Entfernung von unserem Hauptgebäude zu fahren. Als wir ein Problem hatten, das das Kernnetzwerk zum Erliegen brachte, versuchten wir, es live zu reparieren, anstatt es an die kalte Seite zu schicken dann Kern fixieren und zurückschneiden. Einer der Gründe dafür, dass wir uns nicht schneiden ließen, war, dass wir keine genaue Vorstellung davon hatten, wie lange es dauern würde, um zu schneiden und zurückzuschlagen. Daher wusste niemand wirklich, wie lange die Dinge laufen sollten, bevor sie die Entscheidung treffen zu schneiden, also - verständlicherweise - gab es eine Zurückhaltung, um sich zu entscheiden, zu schneiden. Die Köpfe rollten, nachdem wir 14 Stunden später wieder online waren; nicht wegen des Ausfalls an sich, aber weil eine Menge Geld für eine Einrichtung ausgegeben wurde, um einen mehrtägigen Ausfall zu mildern, der während eines solchen Ausfalls ungenutzt gelegen hatte.

Beachten Sie als letzten Punkt, dass ausgelagerte Komponenten Ihres Geschäftsplans sind nicht garantiert arbeiten. Ihr Senior Management sitzt vielleicht da und denkt "Wenn wir die Server in die Cloud stellen, sind sie einfach immer da und wir können die Systemadministratoren entlassen". Nicht so. Wolken können wie alles andere versagen; Wenn Sie kritische Komponenten an einen Anbieter ausgelagert haben, haben Sie lediglich Ihre Fähigkeit zur Einschätzung der Ausfallwahrscheinlichkeiten dieser Komponenten beseitigt. SLAs sind alle sehr gut, aber es sei denn, sie sind mit erheblichen Leistungsnachteilen belegt, sie sind bedeutungslos - warum würde Ihr Provider zusätzliches Geld ausgeben, um verfügbar zu bleiben, wenn sie nur das Geld tragen und Ihre Servicegebühren für den Zeitraum von Nichtverfügbarkeit? Um zuverlässig zu sein, müssen Ihre SLAs mit Strafen verbunden sein, die ungefähr den Kosten entsprechen, die Ihrem Unternehmen durch den Ausfall entstehen. Ja, das wird die Outsourcing-Kosten erheblich erhöhen. und ja, das ist völlig zu erwarten.


7
2017-12-22 09:49



Ich sollte hinzufügen ... diese Seite wurde vom Blitz getroffen drei Mal seit dem ursprünglichen Posting. Der Grund wurde auf eine unzureichende / nicht vorhandene elektrische Erdung in mehreren Bereichen der Einrichtung zurückgeführt. Wir verklagten die Vertragspartner und die Versicherung kümmerte sich um den Großteil des Ersatzes. - ewwhite
Entschuldigung, ewweiße, meine Eröffnungsvorschrift sollte dir auch klarer gelten; auf Websites, wo irgendein Da das Risiko über dem Hintergrund liegt, ist es sinnvoll, zumindest eine speziell auf dieses Risiko ausgerichtete Risikominderung in Erwägung zu ziehen. Meine Antwort war mehr für alle anderen, die vielleicht Ihre Frage lesen und anfangen zu denken "Nun, ich habe auch keinen Blitzplan; vielleicht sollte ich". - MadHatter


Es kommt immer darauf an, wie viel Sie ausgeben möchten. Ich habe nicht genug Wissen, um ausführlich darüber zu sprechen, aber ich war in einem großen Pharma-Datacenter, das einen Blitzschlag machte und durch etwas blies, das ein mehrfach redundanter Spike-Ableiter sein sollte (und richtig konstruiert wurde) , wurde aber falsch implementiert, also ist etwas durchgekommen.)

Was war die maximale Spitze, die Ihre UPS hätte verhindern können? Es sollte eine Bewertung haben. Anscheinend war der Streik direkt genug, um das zu überschreiten, oder etwas, das wie ein schlechter Boden um das UPS-Feed herumgesickert war. Also, vielleicht überprüfen Sie Ihre Power-Design, bestimmen, wie wahrscheinlich ein anderer Streik ist, vergleichen Sie die Kosten von Ausfallwahrscheinlichkeit X Ausfallbarkeit im Vergleich zu Sanierung, und vielleicht ein Elektriker geben der Einrichtung eine gute Umfrage, um sicherzustellen, dass alles ordnungsgemäß geerdet ist - und einige schnelles Lesen zeigt, dass die Erdung für Sicherheit / Code nicht so intensiv ist wie die Erdung zur Verhinderung von Schäden durch Blitzschlag.


6
2017-07-16 13:38



Die USV scheint in Ordnung zu sein. Es gab Probleme in mehreren Teilen des Gebäudes, aber die wichtigsten Technische Daten der USV State "Vollzeit-Multipol-Rauschfilterung: 0,3% IEEE-Spannungsdurchlass: Zero Clamping Ansprechzeit: erfüllt UL 1449" - ewwhite
OK, klingt gut. Dann hat es sich wahrscheinlich mit anderen Mitteln eingeschlichen, wenn Ihr Hauptnetz stabil ist. - mfinni