Frage Was ist deine Checkliste, wenn alles in die Luft geht?


Benutzer können nicht zu ihrer E-Mail gelangen, der CEO kann nicht zur Homepage des Unternehmens gelangen, und Ihr Pager ist einfach mit einem "911" -Code abgegangen. Was machst du, wenn alles explodiert?


40
2018-04-30 08:07


Ursprung




Antworten:


Die erste Antwort lautet: Bleib ruhig! Ich habe gelernt, dass der harte Weg, der in Panik gerät, oft nur die Situation verschlimmert. Sobald dies erreicht ist, ist die nächste Sache, um festzustellen, was das Problem ist. Beschwerden von Benutzern und Managern werden von allen Seiten kommen und Ihnen sagen, was SIE nicht können, aber nicht, was das Problem ist.

Sobald Sie das Problem kennen, können Sie den Plan starten, um es zu beheben und Ihren verärgerten Benutzern eine Zeitskala geben!


35
2018-04-30 08:10



Dies ist ein reaktiver Plan. Ein echter Disaster Recovery-Plan ist bereits für jeden kritischen Geschäftsprozess geschrieben und getestet. - spoulson
spaulson sicher: aber das erste, was zu tun ist, herauszufinden, ob Sie den Plan aktivieren müssen oder wenn das Umdrehen des Leistungsschalters alles reparieren wird. - pjz
Das ist eigentlich das Beste, PERFEKTES POST! Nachdem Sie in der Lage sein müssen, den ganzen Druck auf Ihrem Rücken zu halten, weil wie in einem Kommentar oben gesagt, jeder wird in Ihrem Büro eilen, um Ihnen zu sagen, dass sie gehen können, wo sie wollen. Tatsächlich sind die Benutzer in diesen Momenten meistens selbstsüchtig und wollen gar nicht verstehen, sie wollen einfach nur, dass die Dinge funktionieren und sie kümmern sich nicht um den Rest ... Also stimme ich deinem Beitrag vollkommen zu ! - Marc-Andre R.
+1, um "das Problem" von den Symptomen zu unterscheiden. - bmb


Bleib ruhig

Nicht ausflippen. Atmen! (Vom Zwerchfell hilft es.) Wenn du Meditation studiert hast, kann das auch helfen.

Wenn Sie mit extremem Stress konfrontiert werden, wird Ihr Körper in einen Flucht- oder Kampfmodus versetzt, weil Ihr Körper denkt, dass er sich in einer Leben-oder-Tod-Situation befindet. Zu diesem Zeitpunkt wird Ihr Körper tatsächlich weniger Blut in einige Teile Ihres Gehirns pumpen, wodurch Funktionen wie das Denken verringert werden. Dies senkt effektiv Ihren IQ, da der Instinkt statt der Rationalität beginnt, Ihre Gehirnfunktionen zu dominieren. Wenn Sie jemals in einer heftigen Auseinandersetzung waren oder Zeuge einer heftigen Auseinandersetzung waren, können Sie diese Symptome erkennen, wenn die Emotionen der Menschen aufflammen und die Rationalität Urlaub macht. Später, wenn die Leute eine Chance haben, sich abzukühlen, werden sie wahrscheinlicher akzeptieren, einen Fehler gemacht zu haben oder sich geirrt zu haben, und sind eher in der Lage, die andere Seite zu sehen, aber in der Hitze des Augenblicks weniger.

Behalten Sie Ihre Gelassenheit bei und behalten Sie Ihren Verstand bei der Arbeit, damit Ihr Gehirn voll funktionsfähig bleibt und Sie rationale Entscheidungen treffen, die auf Fakten und Vernunft statt auf Emotionen und Angst basieren.

Triage

Die effiziente Anwendung begrenzter Ressourcen, um den größtmöglichen Nutzen bei geringsten Kosten zu erzielen, ist hier äußerst wichtig. Mache die Entscheidungen so früh wie möglich, welche Dinge JETZT korrigiert werden müssen, was ein wenig warten kann (Stunden, Tage) und welche unbegrenzt warten können. Lerne auch zu erkennen, wenn etwas unrettbar und nicht wert ist, gerettet zu werden (zB die Hälfte des Routers geschmolzen ist, auch wenn es dein einziger ist, du kannst es nicht speichern, einen neuen kaufen und es vor Ort eilen oder etwas finden, das es kann füllen Sie die Lücke vorübergehend).

Situationsbewusstsein erhalten

Lass deine Aufmerksamkeit nicht durch ein interessantes Problem oder durch etwas, das du noch nicht ganz verstanden hast, gefangen werden. Konzentriere dich auf das große Ganze und darauf, dass die wichtigsten Dinge funktionieren.

Verwenden Sie die wissenschaftliche Methode

Bilden Sie eine Hypothese. Bestimmen Sie, wie Sie diese Hypothese testen würden. Sammeln Sie Daten, um die Hypothese zu testen. Achten Sie auch darauf, die Daten zu bestätigen. Verfeinern Sie Ihre Hypothese und wiederholen Sie den Zyklus so oft wie nötig, bis Sie genügend Vertrauen in Ihre Hypothese haben, um etwas zu unternehmen.

Sei pragmatisch

Jetzt ist nicht die Zeit für Dogmen. Es ist in Ordnung, hier und da ein paar Abkürzungen zu machen, wenn man sich von einer Katastrophe erholt. Dies ist im Wesentlichen die technische Verschuldung. In vielen Unternehmen bedeutet katastrophalen Ausfall katastrophalen Umsatzverlust. Es ist besser, die Dinge in Gang zu bringen, auch wenn sie auf wackeligen Beinen stehen, als sich zu strecken und den Lebensunterhalt Ihres Unternehmens zu riskieren. Wie immer ist das Urteil hier äußerst wichtig. Manchmal ist es sinnvoll, einen Boxfan auf ein Serverrack zu richten, manchmal nicht.

Sich selbst versorgen

Wie lange arbeitest du an diesem Notfall? Wann hast du das letzte Mal Wasser getrunken? Wann hast du das letzte Mal gegessen? Wie lange bist du wach? Verbrennen Sie sich nicht, nur weil es einen Notfall gibt, nehmen Sie sich Zeit, um hydratisiert, gefüttert und ausgeruht zu bleiben (falls es ein langer, mehrtägiger Patzer ist).

Hilfe rekrutieren

Es gibt fast sicher viele talentierte Leute in Ihrem Unternehmen, die sowohl motiviert als auch in der Lage sind, Hilfe zu leisten. Seien Sie vorsichtig, wenn Sie zu viele Leute herumlaufen und sich gegenseitig Probleme bereiten. Seien Sie auch vorsichtig mit nervigen Leuten, indem Sie sie durch einen "firedrill" bringen. Finden Sie Menschen, die bereits helfen wollen, lassen Sie sie an gezielten Aufgaben arbeiten und stellen Sie sicher, dass Menschen miteinander kommunizieren.

Kommunizieren

Kommunikation ist kritisch. Nichts ist so gruselig wie das Unbekannte. Wenn die Leute nichts anderes wissen, als dass etwas kaputt ist, ist eine leere Aussage, dass sie in X Stunden wieder da ist, nur leicht beruhigend (noch weniger beruhigend, nachdem X Stunden vergangen sind und die Dinge noch immer kaputt sind). Der Druck, der im Spiel ist, kann Sie dazu verleiten, zu optimistische WAG-Zeitschätzungen zu geben, aber das ist der falsche Kurs. Sagen Sie nicht nur, dass Sie daran arbeiten, sagen Sie nicht einfach, dass die Dinge um X Zeit korrigiert werden. Sei offen, zeig deinen Prozess, schildere deine Fortschritte und deine Rückschläge. Verschaffen Sie sich einen Einblick in das Problem, Ihren Prozess beim Aufspüren und Ihren Plan, Dinge zu reparieren (aber ertränken Sie die Leute nicht in Kleinigkeiten). Zeigen Sie, dass das Problem nicht hartnäckig ist, zeigen Sie, dass die Dinge letztendlich richtig gemacht werden, zeigen Sie, dass es kompetente Leute zu dem Problem gibt, diese Dinge sind beruhigender als grundlose Verspätungen.


59
2018-04-30 11:26



Sehr gut - ich würde auch hinzufügen rekrutiere Hilfe wenn möglich - Brent
@ Brent ah ja, ich wollte das hinzufügen. Ich habe den richtigen Wortlaut für diesen Abschnitt noch nicht herausgefunden. - Wedge


Keine Panik.


24
2018-04-30 08:23



In großen, freundlichen roten Buchstaben. - Spoike
Ich habe gehört, dass Rosa eine beruhigende Farbe ist. - Sophie Alpert
Ergreifen Sie ein Handtuch und hinterlassen Sie eine Nachricht: "So lange und danke für all die Fische". - Jauder Ho
Sie sagen, Taupe ist sehr beruhigend - Glenn Slaven
Es ist halbwegs stimmberechtigt! - Andrew Grimm


Schritt 0. Stellen Sie sicher, dass nicht Ihr Überwachungssystem den Fehler verursacht


22
2018-04-30 10:39



LOL! Schön! Das passiert so oft: P - Marc-Andre R.


Melden Sie sich bei Serverfault an


12
2018-04-30 16:15





Sofort einen Flug in ein Nichtauslieferungsland buchen


11
2018-04-30 08:15





Überprüfen Sie zuerst die Grundlagen, es scheint albern, aber Dinge wie

  1. Ist der Server eingeschaltet? (wenn Sie extern hosten)
  2. Ist Ihr Hosting-Anbieter nicht verfügbar?

Ich weiß, dass viel Zeit verschwendet werden kann, um nach einer Lösung zu suchen, wenn das Problem stromaufwärts ist


8
2018-04-30 08:23



Yep - wenn alles vorbei ist - schau im Datacenter nach - und in den Supportforen. Wenn es 30 Leute online gibt, wenn es normalerweise 3 gibt - es trifft den Fan. - Alister Bulman


Ich ping Sachen. Was danach passiert, hängt stark von den Ergebnissen des Ping ab.


6
2018-04-30 08:25



Benutzte diese Methode heute. Viele PCs konnten nicht drucken. Versucht, den Datenbankserver zu pingen, OK. Versucht, Drucker Lizenzserver ping, keine Antwort. Ergebnis = Serverfehler! - Swinders
Netter Punkt;) Ich mache das viel Zeit pro Tag, bevor ich etwas anderes mache. Dies ist tatsächlich so viel Zeit sparen: P - Marc-Andre R.


Sorry, aber diese Frage ist bereits perfekt beantwortet Lieblings-Sysadmin-Cartoon:

Disaster recovery plan of Dilbert


6
2018-05-07 18:32





Täusche das Netzwerk.

(es ist ein Witz!)


4
2018-04-30 10:09





RTFLF - Lesen Sie die Frakkin Log-Datei

(Ich kann das nicht akzeptieren, es geht alles Scott Hanselman)


3
2018-04-30 16:35



Dies sollte nicht der erste Schritt sein, aber es muss einer von diesen sein. - Marc-Andre R.