Frage Bester Systemadministrator-Unfall [geschlossen]


Ich bin auf der Suche nach amüsanten Geschichten von Systemadministrator-Unfällen, die Sie hatten. Löschen der CEO-E-Mail, Formatieren der falschen Festplatte usw.

Ich füge meine eigene Geschichte als Antwort hinzu.


87
2018-05-13 21:00


Ursprung


Siehe auch serverfault.com/questions/5066 - Zoredache
Das ist eher eine Umfrage als eine Frage. Dies sollte wahrscheinlich auf Community-Wiki gesetzt werden. - Zoredache
Yup, das sollte definitiv ein Community-Wiki sein. In der Absicht der Frage ist meine Lieblingsgeschichte jedoch die 500-Meilen-E-Mail - ibiblio.org/harris/500milemail.html - obwohl das offensichtlich nicht ich war. - Mihai Limbăşan
Die 500 Meilen ist einfach wunderbar - Hubert Kario
Dies sollte als "schlechterer Systemadministrator-Unfall" bezeichnet werden. - Rilindo


Antworten:


Es hat mir Spaß gemacht, den Unterschied zwischen dem Linux "killall" -Befehl (tötet alle Prozesse, die dem angegebenen Namen entsprechen, nützlich zum Stoppen von Zombies) und dem Solaris "killall" -Befehl (tötet alle Prozesse und hält das System, nützlich zum Stoppen des Produktionsservers) in der Mitte der Stoßzeiten und alle Ihre Kollegen bekommen, um Sie für eine Woche zu lachen).


133
2018-05-13 23:20



Kenne ich schon. Wir haben dann den killall-Befehl auf den Solaris-Boxen aliased: alias killall = 'echo ORLLY?' =) - Commander Keen
Unter Solaris gibt es auch einen wichtigen Unterschied zwischen 'ifconfig -a4' (IPv4-Informationen aller Schnittstellen anzeigen) und 'ifconfig -a 4' (alle Schnittstellen auf 0.0.0.4 setzen). - Zanchey
+1 "oops, dieser Wind ist bei Solaris angemeldet?" - Mark Harrison
@ Commander, ich wollte deinen Kommentar verbessern, aber da sind sie genau 42 Upvotes in diesem Moment ... ich gerade konnte nicht. - Massimo
Ebenfalls, hostname -f unter Linux gibt den vollqualifizierten Domänennamen unter Linux aus. Unter Solaris wird der Hostname auf -f. - 200_success


Ich war verantwortlich für unseren Corporate Web-Proxy, der zu der Zeit Netscape-Produkt war. Während man in den Admin-Formularen herumspielte (es war eine webbasierte Oberfläche), gab es einen großen (und ich schwöre es war rot) Knopf, der sagte Benutzerdatenbank löschen. Kein Problem, dachte ich. Mal sehen, welche Möglichkeiten es mir gibt, wenn ich das treffe. Sicherlich wird eine Sicherheitsabfrage angezeigt, wenn keine Optionen verfügbar sind.

Ja, keine Bestätigung. Keine Optionen. Keine weiteren Nutzer

Also, ging zu Mr. Solaris Sysadmin und sagte, dass ich dringend eine Wiederherstellung von Band brauchte, auf die er antwortete: "Ich stelle diese Box nicht zurück."

"Äh, komm wieder", gab ich zurück.

"Ich stelle diese Kiste nicht zurück. Sie steht auf meiner Liste der Dinge, die ich in die Backup-Rotation aufnehmen muss, aber ich bin noch nicht dazu gekommen."

"Dieser Server ist seit fast 8 Monaten in Produktion!" Ich schrie.

zucken, er antwortete. "Es tut uns leid."


73
2018-05-14 12:26



Dies ist definitiv eine Geschichte für all die Leute, die sich über diese nervtötenden "Sind Sie sicher?" Beschweren. Dialoge;) - MikeyB
Ich bin mir nicht wirklich sicher, dass du derjenige sein solltest, der ihn anschreit ... - Mikeage
Das ist nicht wirklich ein Zufall - Sie haben absichtlich auf die Schaltfläche Benutzerdatenbank löschen geklickt, Mann ... - Wayne Koorts
Ja, du hast recht. Das Drücken des Knopfes war kein Zufall. Tatsächlich war das Löschen der Datenbank der Unfallteil. Was auch immer... - squillman
Auf diese Schaltfläche sollten zwei oder drei Bestätigungsaufforderungen folgen. Wie ist es eine nützliche Funktion, um die Benutzerdatenbank zu löschen? Ich beschuldige den Programmierer, der den Knopf dort hineingesteckt hat. Und die Tatsache, dass die db nicht gesichert wurde. "Genie kann seine Grenzen haben, aber Dummheit ist nicht so behindert." (zu Elbert Hubbard). Mit der Annahme, dass Menschen nicht neugierig sind, bauen unvorsichtige Affen gerade eine Katastrophe auf. - Jared Updike


Vor vielen Jahren hatte die Firma, für die ich arbeitete, einen Client, der eine nächtliche Sicherung ihres NT 4.0 Servers zu einem Jaz fahren (wie eine Zip-Disk mit hoher Kapazität).

Wir haben eine Batch-Datei eingerichtet, die über Nacht als geplanter Job ausgeführt wurde. Jeden Morgen holten sie die Lastnight-Diskette von der Festplatte, und bevor sie am Abend gingen, legten sie die nächste Diskette in die Sequenz.

Wie auch immer, die Batch-Datei sah ungefähr so ​​aus (das Jaz-Laufwerk war Laufwerk F:) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

Jedenfalls haben sie eines Nachts vergessen, die Diskette einzulegen. Die Änderung an Laufwerk F: ist fehlgeschlagen (keine Diskette im Laufwerk), und die Stapeldatei wurde weiter ausgeführt. Das Standardarbeitsverzeichnis für die Batchdatei? C :. Das erste Mal, dass ich jemals eine Backup-Routine gesehen habe zerstören der Server, den es gesichert hat.

Ich habe an diesem Tag etwas über SysAdminning (und Exception Handling) gelernt.

Jim.

PS: Die Lösung? "deltree / y F: \ *. *".


66
2018-05-13 20:00



... müssen wir erklären, was Jaz fährt? Bin ich wirklich so alt? - Spencer Ruport
Es war eine IOMEGA-Sache (erinnern Sie sich an Zip-Laufwerke?) War der große Bruder der Zip-Laufwerke, und es war wie eine Festplatte ohne Köpfe, nur die Platten, die in einem Kunststoffgehäuse mit einem kleinen Fenster und wenn eingefügt wurde Das Laufwerk, das Laufwerk hat die Header eingefügt. Wo wie 1 oder 2GB, teuer, und neigen dazu, zu überhitzen, so wurde nicht empfohlen, die Patronen im Inneren des Lesers (das sagte von einem alten IOMEGA-Chef) - Andor
Hehe, ich mag es, wie Jaz-Laufwerk durch den Vergleich mit dem Just-As-Dead-and-Irrelevant-Zip-Laufwerk erklärt wird. - Luke
Wenn Sie sich älter fühlen, gibt es Systemadministratoren, die Deltree noch nie zuvor gesehen haben. - Joseph
Ich musste vielen Programmierern erklären, dass wenn Sie versuchen, eine Operation, die einen Status ändert und dennoch fehlschlägt und Sie in den vorherigen Zustand versetzt, Sie überprüfen müssen, ob es erfolgreich war, wenn Sie etwas Gefährliches tun solltest du im vorherigen Zustand sein. Warum muss ich das erklären? - carlito


root @ dbhost # find / -name Kern -exec rm -f {} \;

Ich: "Du kommst nicht rein? OK. Wie lautet der DB-Name?"

Cu: "Kern."

Ich: "Oh."


61
2018-05-13 18:31



und von da an wurde der Befehl 'file' zur Bereinigungs-Crontab hinzugefügt ... :) - MikeyB
Oh mein Gott.... - squillman
Oh mein Gott ... wow. Ich werde mir diesen Punkt merken, also tue ich es nie. - Glenn Willen


Ich liebe die Art, wie jeder seine Geschichte mit "als ich jung / grün war" so behandelt, als ob sie es nie wieder tun würden. Unfälle können selbst den erfahrensten Profis passieren.

Mein eigener schlimmster Moment ist so schlimm, dass ich immer noch Herzklopfen darüber denke ...

Wir hatten ein SAN mit Produktionsdaten darauf. Kritisch für das Unternehmen. Mein "Mentor" entschied sich, eine Partition zu erweitern, um Speicherplatz freizugeben. Kannst du sehen, wohin das führt? Er sagte, dass die SAN-Software dies in den Produktionsstunden live tun könnte und niemand würde es bemerken. Die Alarmglocken hätten läuten sollen, waren aber auffällig leise. Er sagte, er habe es "viele Male zuvor" ohne Probleme gemacht. Aber hier ist die Sache - er hat mich auf den Knopf klicken, der sagte "Bist du sicher?" Da ich neu in der Firma war, nahm ich an, dass dieser Typ wusste, wovon er sprach. Großer Fehler. Die gute Nachricht war, dass die LUN verlängert wurde. Die schlechte Nachricht war ... nun, ich wusste, dass es schlechte Nachrichten gab, als ich Platten Schreibfehler in der Windows-Box sah.

Ich bin froh, dass ich braune Hosen trug.

Wir mussten erklären, warum 1TB Daten mittags verschwunden waren. Das war ein wirklich, wirklich schlechter Tag.

Es ist eigentlich ein gutes Prinzip - bevor Sie etwas tun, an dem Sie zweifeln, stellen Sie sich vor, Sie müssen dem Management erklären, wenn etwas schief geht. Wenn Sie keine gute Antwort finden, um Ihre Handlungen zu erklären, tun Sie es nicht.


60
2018-05-13 18:22



+1 für den letzten Absatz - die "Sitz auf deine Hände" -Technik, eine wichtige Minute zum Nachdenken - Andy
Es gibt eine gewisse Fähigkeit, die man bekommt, wenn man eine Zeit lang mit Live-Systemen arbeitet: ein Spider-Sinn für das, was gefährlich ist und was nicht. Wie pausieren Sie eine zusätzliche Sekunde, bevor Sie an einer Root-Eingabeaufforderung return drücken, oder stellen Sie sicher, dass die SQL-update-Anweisung eine richtige where-Klausel hat (die bereits in einer Auswahlzählung (*) ausgeführt wurde). - jplindstrom
Ich möchte ein Popup, das so etwas wie "Möchten Sie Ihren Lebenslauf drucken, bevor Sie fortfahren?" .. und haben nur eine Option: "Ja" - warren
+1 für den Rat im letzten Absatz - Jeroen Huinink
+1, dito. Ich erinnere mich, dass ich von einem Sysadmin-Freund gehört hatte, dass es in seiner jährlichen Leistungsbeurteilung Probleme mit seiner schlechten Tippgeschwindigkeit gegeben hatte, die er verächtlich (und korrekt) mit "Ich bin nicht bezahlt, um schnell zu tippen" abgewiesen wurde langsam und nachdenklich. - MadHatter


Nagios hat uns eines Morgens angepisst, als die Geschäftsstunden anfingen zu sagen, dass es keine Verbindung zu einem nicht-kritischen Server herstellen konnte. Ok, geh zum Serverraum. Es ist ein alter Server, ein Dell 1650, der im Jahr 02 gekauft wurde, und wir wussten, dass die 1650er Hardwareprobleme hatten. Der PJ ersticht den Einschaltknopf. Nichts. Drücken Sie die Taste erneut und halten Sie sie fünf Sekunden lang gedrückt, um das Gerät einzuschalten. Dadurch wird der Fehlerschutz des BMC außer Kraft gesetzt, da es ohne DRAC keine Möglichkeit gibt, die BMC-Protokolle ohne Einschalten des Gehäuses zu überprüfen.

Der Computer startet den POST und stirbt dann erneut. Ich stehe darüber und gehe: "Ich rieche Rauch." Wir ziehen den Server auf die Schienen, und eines der Netzteile fühlt sich warm an, also zieht der PJ ihn und will die Box wieder schließen. Ich sage: "Nein, das ist kein Stromversorgungsrauch, das ist Motherboard-Rauch."

Wir öffnen den Fall erneut und suchen nach der Quelle des brennenden Geruchs. Es stellte sich heraus, dass eine Drosselspule und ein Kondensator den Spannungsregler auf der Hauptplatine durchbrannten und geschmolzenes Kupfer und Kondensator über alles hinwegspülten, wodurch eine Menge Material kurzgeschlossen wurde und im Grunde ein großes Durcheinander entstand.

Der schlimmste Teil für mich war, zu erkennen, dass ich genug Hardware geraucht hatte, um den Unterschied zwischen dem Geruch eines verbrannten Motherboards und einer verbrannten Stromversorgung zu erkennen.


54
2018-05-14 14:49



Zu den Auswahlkriterien dieses Jobs gehören: guter Geruchssinn. Brillant. - mlp
Buddy von mir schraubte eine Reihe von Laufwerksschienen so weit in eine Platte, dass sie in die Platine eintraten und sie kurzschließen. Ziemlich rosa Rauch. Sehr unterscheidbar. - squillman


Vor drei Tagen (ernsthaft) war ich remote bei einem Schulserver angemeldet und habe Service Pack 2 auf einem Windows Server 2008-Dateiserver installiert.

Ich beschloss, den notwendigen Neustart für spät in die Nacht zu planen, wenn die Lehrer nicht am Ende ihrer Berichtkarten angemeldet waren. Ich tippte etwas wie:

 um 23:59 "shutdown -r -t 0" 

... was gut funktioniert haben könnte.

Aber dann habe ich mich selbst erraten. War meine Shutdown-Syntax korrekt? Ich habe versucht, die Verwendungshilfe anzuzeigen, indem ich tippe

 Herunterfahren / h 

... und verlor sofort meine RDP-Verbindung. Panisch, ich habe Google für die Syntax gefunden. Eine schnelle Suche ergab, dass die Server 2008-Version des Herunterfahrens einen / h-Schalter enthält, der (wie Sie vielleicht erraten haben) den Computer im Hibernate-Modus betreibt.

Lehrer riefen mich innerhalb weniger Minuten an, um zu melden, dass sie die Berichtskarten, an denen sie gearbeitet hatten, nicht mehr öffnen oder speichern konnten. Da ich nicht in der Nähe war und der Serverraum verschlossen war, musste ich den Schulleiter direkt anrufen und sie durch den Prozess laufen lassen, die Maschine wieder einzuschalten.

Heute habe ich als eine Form der Entschuldigung alle selbstgemachten Kekse mitgebracht.


47
2018-05-13 23:53



Ein perfektes Beispiel für ein fehlerhaftes Benutzeroberflächen-Design an der Kommandozeile: Was passiert mit dem "Prinzip der geringsten Überraschung"? - Mei
unter DOS / Windows ist es nicht /? - Jared Updike
Es ist normalerweise /? auf Win, aber es gibt viele Dienstprogramme, die von UNIX portiert oder von UNIX-Leuten geschrieben werden (einschließlich einiger solcher bei MS), die -h oder / h sind - Richard Gadsden
..aber du immer noch IMMER Probieren Sie die /? zuerst! - warren
Deshalb mag ich Linux. man shutdown. Ich weiß, ich werde keine Probleme damit machen man! - Josh


In einem früheren Job hatten wir ein tolles, selbst entwickeltes System, das jedes einzelne Poststück protokollierte und archivierte, das innerhalb des Unternehmens einging, verließ oder blieb.

Deine gesamte Mailbox bluten lassen? Kein Problem! Du suchst nach einem Poststück, das dir jemand vor einer Woche / einem Monat / einem Jahr geschickt hat, aber du kannst dich nicht erinnern, wer es gesendet hat oder was das Thema war? Kein Problem! Wir senden Ihnen einfach alles von Februar für Sie in einen speziellen Ordner zurück.

Irgendwann kam die Notwendigkeit, dass der CEO des Unternehmens die Post zwischen einem Konkurrenten und einem verdächtigen internen Verkäufer überwachte. Also haben wir ein Skript erstellt, das jede Nacht lief und relevante Post vom Vortag an den CEO lieferte. Kein Problem!

Etwa einen Monat später kam das Wort eines dringenden Problems von oben. Scheint, als der CEO die Liste der Mails durchlas, die an $ OTHERCOMPANY geschickt wurden, stieß er auf diesen:

To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

Da der CEO eine wichtige Person und alles war, war er zu beschäftigt, um auf alle diese "Send Read Receipt" -Dialoge in Outlook zu klicken und seinen Client so konfiguriert zu haben, dass er sie alle schickte. Bei einer der vom Überwachungsfilter abgefangenen Nachrichten wurde eine Lesebestätigungsanfrage gestellt. Raten Sie, was Outlook getan hat? Sicherlich hat das "heimliche" Monitoring verpatzt.

Unsere nächste Aufgabe: Hinzufügen von Regeln zum E-Mail-Filter, um ausgehende Lesebestätigungen vom CEO an diese Firma zu blockieren. Ja, es war der einfachste Weg. :)


37
2018-05-13 18:35



Das ist in meinem Land allerdings nicht legal. Überhaupt. - mafu
Ah, das ist es Ihre Land. :) In Kanada ist es in Ordnung. - MikeyB
Es ist nicht legal, E-Mails zu überwachen, die in die Server Ihres eigenen Unternehmens gelangen oder diese verlassen. In welchem ​​Land lebst du? - Andrew Ensley
+1 für den Newsspeak - Fahad Sadah


Ahhh, meiner war vor ungefähr 10 Jahren, als ich noch meine Füße nass bekam. Ich hatte die Freude, Batterie-Backups auf allen Programmiercomputern zu installieren. Sie wollten auch, dass die geladene Software vor Stromausfall warnt und ordnungsgemäß heruntergefahren wird.

Also habe ich es auf meinem Computer eingerichtet, um alles natürlich zuerst zu testen und sicherzustellen, dass alles funktioniert. Also ziehe ich das Netzkabel ab und die Nachricht erscheint auf meinem Bildschirm. "Externe Stromversorgung verloren, System wird heruntergefahren".

Also dachte ich, Hey cool, es hat funktioniert. Aber aus irgendeinem seltsamen Grund erinnere ich mich nicht einmal daran, dass diese Nachricht als Netzwerknachricht gesendet wurde, so dass alle 200+ Computer in der Firma diese Nachricht erhielten, wo 100+ Benutzer Programmierer waren.

Ja, rede über Massenfanatiker !!

Ich hielt den Kopf für eine Weile an diesem Ort.


36
2018-05-13 19:00



Haha, hört sich so an, als ob hier ein Freund von mir mit "net send" und ungefähr 1300 Empfängern vorbeigegangen wäre :) - squillman
Pfui. Ich habe das "net send" auch in der Schule gemacht. Ich dachte "sie müssten dieses" baden! baden! Im ganzen Labor hatten Computer die Nachricht auf. Ich beschloss, mich bei dem Netzadministrator zu entschuldigen, und auf meinem Weg hatte jeder Computer, an dem ich vorbeikam, die Nachricht hochgeladen. /Seufzer - Matt Simmons
Yup, Spaziergang der Schande genau dort! Mein Freund ist nicht aufgestanden. Hat auch nicht auf sein Telefon geantwortet. - squillman
Haha, ein Freund von mir hat alle an die Schule geschickt "HILFE! Ich bin in Raum 114 gefangen" und natürlich 60 Sekunden später tauchte eine kleine Armee von Leuten auf, um herauszufinden, wer die Nachricht gesendet hatte - Mark Henderson♦
Wir haben diese Funktion tatsächlich benutzt, um den Sys-Admin an meinem Junior College zu verpatzen. Alle Computerlabore mit gefälschten AV-Nachrichten und Meldungen zum Herunterfahren des Systems gelöscht, die aussahen, als kämen sie von ihm. Er hatte den starken Verdacht, dass wir die Schuldigen waren, aber ich und mein Kumpel hatten jeweils ein Alibi (ich schickte das erste, als er in der Klasse war und er schickte das zweite, während ich im Unterricht war) und die Computer hatten generische Lab Logons - Shial