Frage Cliffhanger: Die Backups stimmen ... hier ... oder?


Bei meiner Arbeit haben Backups eine überraschend niedrige Priorität. Die Backup-Strategie wurde vor einiger Zeit implementiert, und seitdem wird nur angenommen, dass die Backups in Ordnung sind. Wenn Sie die Systemadministratoren fragen, sagen sie, dass alles gesichert ist.

Aber wenn Sie nach einer speziellen Sicherung fragen, ist die Hälfte der Zeit nicht da:

  • Die Festplatte wurde voll
  • Das Band ist fehlgeschlagen
  • Sieht so aus, als hätte jemand den Backup-Job deaktiviert
  • Die Netzwerkverbindung hatte Ausfallzeiten
  • Wir haben diese Festplatte vor Jahren bestellt, aber die Finanzierung hat die Bestellung nicht genehmigt
  • Die Dateien sind beschädigt
  • Die Datei enthält eine falsche Datenbank
  • Nur Transaktionsprotokollsicherungen (nutzlos ohne eine vollständige)

Vor ein paar Wochen kam das Desaster sehr nahe, als einer der Server eine zu viele Raid-Festplatten verloren hat. Glücklicherweise war eine Platte immer noch gut genug, um die Daten zu kopieren, wenn Sie es oft versuchten.

Aber selbst nach dieser Katastrophe kann ich die Systemadministratoren nicht davon überzeugen, die Situation zu verbessern. Also, ich frage mich, irgendwelche Tipps, um die Augen der Menschen zu öffnen? Mir scheint, wir gehen am Rand einer Klippe entlang.


28
2018-05-16 13:18


Ursprung


Sie sagen also, dass Ihre Systemadministratoren nicht nur inkompetent genug sind, um ein RAID-Set zu verlieren, sie sind auch nutzlos genug, um kein Backup für dieses System zu haben? Klingt wie ein guter Fall für ein paar neue Admins. - PowerApp101


Antworten:


Du musst diese Dinge immer von oben lösen.

Wird die aktuelle Backup-Strategie vom Management unterstützt und verstanden? Wenn nicht, ist es nutzlos.

Die Geschäftsleitung muss über die Probleme und die damit verbundenen Risiken Bescheid wissen (Verlust von Finanzdaten, die Sie legal zum Überleben benötigen, oder Kundendaten, deren Erfassung Jahre in Anspruch genommen hat) und das abwägen, um Entscheidungen zu treffen oder Entscheidungen zu treffen jemanden (wie Sie) dazu bringen, etwas zu unternehmen.

Wenn Sie nicht zum Management kommen, versuchen Sie Business Controller oder andere Finanzpositionen, bei denen der Abruf von Daten und deren Integrität für die Unternehmensberichte von großer Bedeutung ist. Sie wiederum können "den Sturm starten", wenn nötig ...


24
2018-05-16 13:32



Ich hasse Arbeitspolitik, und Leute "beginnen Stürme", aber wenn Sie die ehrliche Wahrheit über die Situation sagen, "an die Spitze zu gehen" und andere "Sturm" -Starter ist wahrscheinlich der beste / einzige Weg. - anonymous coward
Einverstanden, es weht (kein Wortspiel beabsichtigt). Es ist nur eines dieser Dinge, die manchmal getan werden müssen, obwohl es sowohl lästig als auch riskant ist, ein Sturmstarter zu sein. Aber wenn es um kritische Probleme wie dieses geht, gibt es höchstens drei Optionen: ignorieren, verlassen oder angreifen. Und diese Art von Makel zu ignorieren klingt nicht gut. - Oskar Duveborn


Wo soll ich anfangen? Dies ist eine Katastrophe, die darauf wartet, passiert zu sein. Eine primäre Sysadmins-Jobfunktion soll sicherstellen, dass Daten gesichert und wiederherstellbar sind. Alles andere ist zweitrangig. Nein, wenn nein, aber ist.

Hier sind ein paar Dinge, die Sie tun können:

  1. Verfolgen Sie KPIs für Wiederherstellungen. Es sollte möglich sein, einen Bericht zu erstellen, der zeigt, wie viele Anfragen für Wiederherstellungen erfolgreich waren. Alles unter 100% sollte gründlich untersucht werden. Management Liebesberichte und das ist ein harter Beweis.

  2. Es sollte dokumentierte Verfahren für alle Sicherungs- und Wiederherstellungsvorgänge geben, einschließlich aller Systeme und ihrer Sicherungsstrategien, Bandrotationen, Zeitpläne, Eskalationspfade, Testwiederherstellungen usw. Fordern Sie sie auf, sie zu sehen.

  3. Sprechen Sie mit dem Manager der Systemadministratoren und äußern Sie Ihre Bedenken. Gehen Sie mit dem Beweis bewaffnet, dass Wiederherstellungen nicht funktionieren. Wenn keine Freude höher geht.

Ernsthaft - machen Sie viel Aufhebens. So etwas kann ein Unternehmen zerstören.


14
2018-05-16 14:09



Vergiss nicht, eine Beta-Verteilung auf deine "Statistik" von drei Versuchen zu verwenden: -P stats.stackexchange.com/q/47771/9487 - Tobias Kienzler


(Mindestens) jährliche Disaster-Recovery-Tests vorschlagen. Die zur erfolgreichen Durchführung des Tests erforderlichen Arbeiten sollten Mängel aufdecken.


5
2018-05-16 17:27





Wo ich arbeite, haben wir eine wirklich gute IT-Abteilung, jedes Jahr kommen sie aus jedem Büro in Europa zusammen und haben einen "Wiederherstellungs-Fest" auf gemieteten Servern in einem Datacenter und simulieren effektiv, was passieren würde, wenn die Angestellten eines Tages zur Arbeit kämen Büro war in der Nacht abgebrannt.

Holen Sie den Big Boss ein, erinnern Sie ihn daran, dass er im Falle einer Katastrophe in diesem Jahr keinen Bonus mehr hätte (oder noch schlimmer!) Und es wäre daher vielleicht ratsam, eine ähnliche Disaster Recovery-Übung zu organisieren. Es sollte nicht lange dauern oder viel kosten - Admins werden mit ihren Offsite-Backup-Bändern weggeschickt und aufgefordert, eine identische Büroumgebung von ihnen zu erstellen.

Lehnen Sie sich zurück und beobachten Sie, wie IT besser wird - sobald das Management erkennt, dass die Unternehmensdaten gefährlich kurz davor sind, dauerhaft verloren zu gehen, werden Funken fliegen (von den Raketen, die strategisch in den genannten Admins platziert werden)


5
2018-06-03 19:42



Das ist so großartig! - Oskar Duveborn


Es ist leicht, den Admins die Schuld zu geben - aber Oskar hat recht: diese Dinge werden von oben gesteuert. Wenn das Management nicht das Geld ausgeben wird, um Backups zu einer Priorität zu machen, dann sind die Systemadministratoren in der Regel Pech und tun ihr Bestes mit den Ressourcen, die sie haben.

Der Schlüssel, wenn Sie einer dieser unglücklichen Admins sind - und ich bin in diesem Boot für einige Kundenengagements gewesen - ist, dass Sie sicherstellen, dass das Management wiederholt, und in einer Papierspur bestätigt wird, dass das ist ein Risiko für das Geschäft.

Meine Strategie ist es, ständig auf die Probleme zu hämmern. Wenn Sie das tun, werden die Probleme manchmal behoben, aber es ist meistens so, dass sich niemand, dem ich Bericht erstatte, hinter der Entschuldigung "Ich wurde nie informiert" verstecken kann. Als Berater kann ich normalerweise besser sein. Ich kann meine Chefs dazu bringen, mehr Führungskräfte zu informieren, als ich kann, dass es eine Schwachstelle gibt. Das verbreitet die Schuld oder fokussiert sie zumindest auf ein höheres Niveau als ich.

Gleichzeitig müssen Sie erfinderisch sein und hart arbeiten, um die Risiken mit den Ressourcen zu minimieren, die der Kunde bereitstellen kann.

Während in einigen Fällen die Admins schuldhaft sein können, ist das Management immer verantwortlich: entweder für das Wissen über das Risiko und nicht genug, um es zu mindern oder um Leute einzustellen, die sie nicht vor diesen Risiken warnen.


4
2018-06-07 03:40





Ich bin verantwortlich für etwa 200 Server im Nordwesten Großbritanniens, und das ist offensichtlich viel zu viel, um manuell zu überprüfen.

Ich konfiguriere das Backup so, dass es nach Abschluss ein (VBScript-) Skript ausführt, das das Backup-Protokoll durchsucht, feststellt, ob das Backup funktioniert oder nicht, und einen Datensatz mit dem Backup-Ergebnis in eine zentrale Datenbank schreibt. Dann führe ich in der Zentrale ein Skript aus, das diese Datenbank abfragt und mir eine Liste von Websites präsentiert, auf denen entweder das Backup einen Fehler gemeldet hat oder kein Bericht von der Site vorhanden war.

Das Endergebnis ist, dass, wenn ich mich an meinen Schreibtisch setze, ich eine Liste aller Seiten habe, wo ich das Backup überprüfen muss.

Der Punkt von allem ist, dass die Standardannahme ist, dass die Sicherung fehlschlug, und die Sicherung funktioniert nur dann, wenn mein VBScript keine Fehler erkannt hat und schrieb diese Schlussfolgerung ich in meine Datenbank. Dies gewährleistet, dass Backup-Fehler nicht unbemerkt bleiben.

Einige der Server verwenden Backup Exec, einige NTBackup und einige kopieren ihre Dateien einfach auf einen anderen Server im Netzwerk. Es spielt keine Rolle, welche Art von Backup die Server machen, da es einfach ist, mein VBScript zu optimieren, um nach Fehlern zu suchen. Mein Skript ist eigentlich ziemlich einfach, es öffnet einfach den Backup-Bericht als eine Textdatei und greps für Sätze wie "nicht mounten", "Band voll", "CRC-Fehler" usw. Ich bin sicher, dass ein professioneller Programmierer tun würde ein schöner Job. Das Ganze ist jedoch einfach und robust und es ist proaktiv in dem Sinne, dass ich den Backup-Fehlerbericht sehe, ob ich will oder nicht, und ich würde nur dann einen Fehler bemerken, wenn ich mich bewusst dazu entschließen würde, den Bericht zu ignorieren.

JR

PS 99% der Backup-Fehler sind, weil die Benutzer vergessen haben, das Backup-Band zu ändern. Magst du nicht einfach Lusers :-)


3
2018-05-17 07:51



Oder der Roboter hat das Band fallen lassen (verdammt Roboter) ^^ (passiert öfter als man denkt) - Oskar Duveborn


Ein Backup, das nicht getestet wird, ist überhaupt kein Backup.


2
2018-05-17 08:12