close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Die Sicht des Zertifizierers/ PRIOR1 Hr. Meinig - PRIOR1 GmbH

EinbettenHerunterladen
Eco Verband & PRIOR1 GmbH
Notfallmanagement für ihr Rechenzentrum
16. Oktober 2014 in Frankfurt
PRIOR1 GmbH
Übersicht
Planung & Beratungen













Thermo- und Effizienzanalyse
Sicherheitsanalysen, RZ Checks
Workshop zur Definition
von Verfügbarkeitsansprüchen
Workshops Anforderungen einer
Zertifizierung RZ, EE, DIN 50600
Grundlagenermittlung
Konzepterstellung
Auswahl von Zertifizierungspartnern
Planungsleistung
Ausschreibungen
Projekt- + Zertifizierungsbegleitung
Abnahmen und Zertifizierungen
Wartung Rechenzentren
Energieeffizienz und Blauer Engel
Generalunternehmer










Raum-im-Raum Systeme (ECB-S)
Konventioneller RZ-Bau
Brandschutzmeldung,-löschung
Sicherheitstechnik (EMA, WMA, ZKS)
Klimatisierung
Energieversorgung / Energieeffizienz
Notstromkonzepte
Raumüberwachung und Alarmierung
Rack- u. Gangsysteme
Rechenzentrumsverkabelung
Betrieb










Zertifizierungen

Betriebssicherheit

Energieeffizienz

Notfallkonzept
Sicherheitskonzepte RZ, ISMS
Betriebsführungshandbuch
Notfallkonzept
Sicherheitsbeauftragter
ISO 27001 Begleitung &
Zertifizierung
Blauer Engel
Datenschutz
Wartung & Services
Monitoring
Vorstellung
Curt Meinig












Managementberater Rechenzentrumssicherheit und
Energieeffizienz im Rechenzentrum
TÜV Auditor und Experte TÜV geprüftes Rechenzentrum
Rechenzentrumskonzepte, Planungen und Projektbegleitung
Zertifizierung und Zertifizierungsbegleitung für
Rechenzentren
RZ Betriebskonzepte und Notfallmanagement
RZ Betriebsprozesse, Überwachung, Kontrollen,
Funktionstests
Alarmkarten und Notfallmanagement
TÜV geprüftes Notfallmanagement
Informationssicherheit gemäß ISO 27001 & BSI
Externer Sicherheits-Beauftragter & Auditor
IDW PS 330 Prüfungen
IT und ITIL Prozesse
Auslöser zu Aktivitäten zum Notfallmanagement






Wirtschaftsprüfung - Compliance - IT Systemprüfung gemäß IDW PS 300
 ordnungsgemäßer IT-Betrieb
 Risiken begrenzen
 Ausfälle von Unternehmen vermeiden
 Systemprüfung gemäß PS 330
Informationssicherheit ISO 27001
Existiert ein geeignetes Notfallkonzept, in dem
Organisatorische Regelungen zur Wiederherstellung
BSI Standard BSI-Standard 100-4 - Notfallmanagement
der Betriebsbereitschaft formuliert sind
(Wiederanlaufkonzept, Katastrophenkonzept)?
MaRisk
 AT 7.3 Notfallkonzept
ITIL - IT Service Continuity Management
Rechenzentrumssicherheit – TÜV geprüftes Rechenzentrum
IT-Systemprüfung gemäß PS 330
Bei Unternehmen mit hoher Abhängigkeit von IT-Systemen
(z.B. Finanzdienstleistungs- oder Telekommunikationsunternehmen) sind besondere Anforderungen an die Qualität der Risikovorsorge
und den Detaillierungsgrad einer Notfallplanung zu stellen.
Es ist zu untersuchen, ob und inwieweit die vom Unternehmen vorgesehenen
Maßnahmen (Eventualplanungen) geeignet sind, einen Wiederanlauf der
Funktionalität bei Ausfall einzelner Hardwarekomponenten oder die
Wiederherstellung der Funktionalität nach Eintritt eines Katastrophenfalls
innerhalb des von den gesetzlichen Vertretern vorgegebenen Zeithorizonts zu
ermöglichen.
Weiterhin ist zu prüfen, ob geeignete Eskalationsverfahren organisiert und die
Wirksamkeit der Wiederanlauf und Notfallszenarien in regelmäßigen Tests
verifiziert werden.
[Abschlussprüfung bei Einsatz von Informationstechnologie (IDW EPS 330) Kapitel 3.4.5. Sicherung der
Betriebsbereitschaft]
BSI Standard 10-4 - Notfallmanagement
Das Notfallmanagement ist ein Managementprozess mit dem Ziel,
gravierende Risiken für eine Institution, die das Überleben gefährden,
frühzeitig zu erkennen und Maßnahmen dagegen zu etablieren. Um die
Funktionsfähigkeit und damit das Überleben eines Unternehmens oder einer
Behörde zu sichern, sind geeignete Präventivmaßnahmen zu treffen, die zum
einen die Robustheit und Ausfallsicherheit der Geschäftsprozesse erhöhen
und zum anderen ein schnelles und zielgerichtetes Reagieren in einem Notfall
oder einer Krise ermöglichen. Das Notfallmanagement umfasst das geplante
und organisierte Vorgehen, um die Widerstandsfähigkeit der (zeit-)kritischen
Geschäftsprozesse einer Institution nachhaltig zu steigern, auf
Schadensereignisse angemessen reagieren und die Geschäftstätigkeiten so
schnell wie möglich wieder aufnehmen zu können. Das
Notfallmanagement wird auch als „Business Continuity Management“ (BCM)
oder „betriebliches Kontinuitätsmanagement“ bezeichnet.
Ziel des Notfallmanagements ist es, sicherzustellen, dass wichtige
Geschäftsprozesse selbst in kritischen Situationen nicht oder nur temporär
unterbrochen werden und die wirtschaftliche Existenz der Institution auch bei
einem größeren Schadensereignis gesichert bleibt.
ISO 27002 Kapitel 17 Informationssicherheitsaspekte des
Betriebskontinuitätsmanagements
Zielsetzung: Die Aufrechterhaltung der Informationssicherheit sollte in die
Betriebskontinuitäts-Managementsysteme der Organisation eingebettet sein.
Die Organisation sollte ihre Anforderungen bezüglich der Informationssicherheit und für die
Aufrechterhaltung des Informationssicherheitsmanagements in schwierigen Situationen wie z.
B. in einem Krisen- oder Schadensfall festlegen.
Die Organisation sollte Prozesse, Verfahren und Kontrollmaßnahmen festlegen,
dokumentieren, implementieren und aufrechterhalten, um das erforderliche Maß an
Kontinuität der Informationssicherheit in einer schwierigen Situation sicherzustellen.
Die Organisation sollte die festgelegten und implementierten Kontrollmaßnahmen zur
Aufrechterhaltung der Informationssicherheit in regelmäßigen Abständen überprüfen, um
sicherzustellen, dass sie gültig und auch in schwierigen Situationen wirksam sind.
ISO 22301 Societal security — Business continuity
management systems — Requirements
Rechenzentrum und Notfallmanagement









Rechenzentrumskonzeption in vier Stufen
 Stufe 1 geringe Anforderungen an der Ausfallsicherheit
 Stufe 2 hochverfügbar mit Wartungsfenstern
 Stufe 3 hochverfügbar mit 24*7 Betrieb – hochverfügbare RZ werden im Verbund betrieben
 Stufe 4 Hochsicherheits-Rechenzentrum mit 365*24 Betrieb
Die Konzeption legt die Grundlage für einen hochverfügbaren Rechenzentrumsbetrieb
Mit gut aufgestellten Rechenzentrumsbetriebsprozessen wird die Wahrscheinlichkeit eines Ausfall
eines Rechenzentrums vermindert.
Es wird damit gerechnet, dass ein Stufe 3 Rechenzentrum lediglich alle 10 Jahre einmal ausfallen
könnte. In der Regel fassen mehrere Ursachen ineinander bevor ein Rechenzentrum ausfällt.
Murphy wartet auf seine Chance und findet zielsicher dargebotene Lücken.
Der Betrieb basiert auf konsequent durchdachten und achtsam, durchgeführten Prozessen.
Einbau neuer Systeme, Zutritt, Überwachung, Begehungen, Kontrollen, Funktionstest,
Notfalltests und einem an den Anforderungen ausgerichtetem Störungsmanagement.
Weit mehr als 95 Prozent Störungen – Notfälle sehr selten – im Stufe 3 RZ 1 in 10 Jahren
Kontinuierliche Verbesserung bei, Störungs- und Notfallmanagement
Eckpunkte Notfallmanagement












Kontinuierlicher Verbesserungsprozess zum Notfallmanagement/Notfallkonzept - Notfallhandbuch
Initiierung des Prozesses/des Projektes abhängig vom Umfeld (ISO 27001, BSI, Mittelstand)
Geschäfts- und Schadensanalyse
Abgrenzung Störung, Notfall, Krise
Organischer Rahmen - Rollen und Zuständigkeiten
Rahmen für Notfallpläne/Alarmkarten und Krisenpläne
Krisenorganisation, Krisenstab, Krisenkommunikation
Notfall- und Krisenpläne
Wiederanlaufpläne, - zeiten und Reihenfolgen
Datensicherungsstrategien
Jährliche Planung von Funktions- und Notfalltests
Durchführung der Tests



Test der technischen Vorsorgemaßnahmen, Funktionstest, Plan-Review,
Plan-Review, Stabsübungen, Kommunikations- und Alarmierungsübung, Simulation von Szenarien,
Simulation von Szenarien
Ableitung von Vorbeugungs- und Verbesserungsmaßnahmen
Das Notfallmanagement ist eingebettet in die RZ-Prozesse
Beispiele für RZ Aus- bzw. Notfälle










Falsch beschriftete USV-Anlage mit Störung eines Lüfters, die Störung steht bereits länger an.
Instandhaltungsteam des Wartungspartners an dem Tag ohne wirklichen, technischen Experten.
Team wurde durch eigene Mitarbeiter nicht begleitet, da noch Arbeiten im RZ anstanden.
Falsche USV wurde in Wartung genommen, die defekte USV schaltet wegen Überhitzung in den
Bypass
Erste Alarmmeldungen über Stromschwankungen aus dem Rechenzentrum, überhastete
Wiedereinkopplung der in Wartung genommenen USV
Gegenzeitige Blockierung der beiden US-Systeme – Blackout
Nach wenigen Sekunden wieder Strom, aber im Anlauf sind einige Sicherungen gefallen und
zwar auch die des Administrativen Netzes
Die Administratoren kommen nicht von entfernt auf die Systeme
Nach 8 Stunden lief das letzte Kundensystem wieder, glücklicherweise keine Regressforderungen
Wie hätte man den Ausfall vermeiden können: sicherheitsbewusster RZ-Betrieb, Checkliste USV
Wartung, Begleitung der externen Techniker, Qualitätsnachweis der Techniker, Anleitung und
Übung von Einsynchronisieren von USVn, maximale Belastung von PDU- Systemen, redundante
Versorgung von wichtigen Strukturen (hier Admin-Netz)
Die Klimafalle








Redundant ausgelegtes hochverfügbares Rechenzentrum der Stufe 3,
Leider waren alle Umluftkühlgeräte auf einen NH-Trenner gelegt,
Der Trenner war der einzige, der nicht überwacht war,
Der Trenner wurde (natürlich) nachts ausgelöst,
Alle Klimageräte fielen aus – die Bereitschaft Klima wurde alarmiert, konnte aber vor Ort nur
feststellen, dass die Klimageräte ohne Strom waren,
Die Bereitschaft Elektro wird alarmiert – bis die Bereitschaft Elektro im Rechenzentrum eintrifft
ist das Rechenzentrum überhitzt und die Systeme schalten ab.
Wie hätte man den Ausfall vermeiden können: Gute Kenntnis der Elektroversorgung des
Rechenzentrums, Überwachung des NH-Trenners, gleichzeitige Alarmierung der
Elektrobereitschaft (Alarmkarte), Funktionstests und Tests der Umschaltung zwischen
redundanten Systemen.
Vorsicht beim Wiederankühlen von überhitzten Rechenzentren, zu hohe Temperaturdifferenzen
(ASHRAE Empfehlung 5°C (Tapes) bzw. 20°C/Stunde) können zu Haarrissen führen.
Klimafall und Umschaltung








Redundant ausgelegtes Rechenzentrum der Stufe 3,
zwei Serverräume vollständig redundante Kaltwasserversorgung.
Ausfall eines Kaltwassersatzes in der Nacht,
Alarmierung Gebäudemanagement – Frage ob die Umschaltung geklappt hat wurde bejahrt.
Allerdings war nur ein Serverraum umgeschaltet worden.
Der zweite Serverraum wurde nicht mehr gekühlt und die Temperaturen liefen weg.
Weitere Warnhinweise/Alarme z.B. aus den IT Überwachungssystemen wurden ignoriert.
Der Serverraum überhitzt – die Systeme fallen nach und nach aus – die gilt auch für die Festplatten in den verwendeten Storage-Systemen – die Raid-Systeme tolerieren den Ausfall der
ersten Platten. Mit dem Ausfall weiterer Platten reißen die Raid-Systeme auf und sogar der
Plattenspiegel im anderen Serverraum ist betroffen – großflächiger Ausfall von Anwendungen
und Prozessen.
Wie hätte man den Ausfall vermeiden können: achtsame Reaktion auf die eingehenden
Meldungen, klare Handlungsabfolgen in den Alarmkarten, Kommunikation und Abstimmung
zwischen Gebäudemanagement und IT, Parametrisierung der Abschalttemperaturen, Funktionstests der Umschaltungen, Funktionstests bei den gespiegelten Systemen.
Äußerer Stromausfall





Rechenzentrum als Redundanzrechenrechenzentrum, alle
kritischen Systemen werden in beiden Rechenzentren betrieben,
das Ausweichrechenzentrum hat eine mittlere Verfügbarkeit.
Das Rechenzentren wird durch eine USV versorgt, bei der
turnusmäßigen USV-Wartungen wird festgestellt, dass die
Kapazität der Batterien nicht mehr ausreichend ist. Neue
Batterien gehen in die Beschaffung.
Innerhalb der Stadt soll Reparaturarbeiten an einer Flussbrücke
vorgenommen werden. Der dazu verwendete Schwimmkran
reißt drei Leitungen einer 110 kV Hochspannungsleitung ab.
Der Strom fällt für mehrere Minuten aus, das RZ fällt ebenfalls
aus – auch hier fallen die Cluster-Systeme auseinander und
müssen über mehrere Stunden wieder synchronisiert werden.
Wie hätte man den Ausfall vermeiden können: zum einen
schwierig – ein echter Murphy, Funktionstests bei den
geclusterten Systeme, aktuelles Patchmanagement
Elementarereignisse

Donauhochwasser 2013 – Rechenzentrum bleibt kurz über der Hochwassermarke –
bei der Um- und Abschaltung von Transformatoren im Stadtnetz kam es allerdings zu
Spannungsspitzen und die USV wurde zerstört. Gott sein Dank
bliebt der B-Versorgungs-Weg bestehen.

Pfingststurm in Düsseldorf 2014 – Rechenzentrum der Rheinbahn – massive
Beeinträchtigungen im Nahverkehr – Gebäudeschäden an der Hauptverwaltung –
Rechenzentrum dank massiver Bauweise nicht betroffen
– nur ein Baum ist auf eine äußere Umzäunung gefallen.
Brandereignisse


Auszug aus Impulse Kundenzeitschrift von Wagner
Insgesamt sind Brände in Rechenzentren eher selten, am ehesten sind Schwellbrände zu
erwarten. Besonderer Augenmerk sollte daher auf eine gute Brandfrüherkennung gelegt werden.
Obwohl solche Ereignisse eher selten sind müssen aus Sicht der Versicherungswirtschaft
Rechenzentren mit einer Löschanlage ausgestattet und Notfallprozesse etabliert sein.
Standortbestimmung Notfallmanagement











Betriebsführung – liegt ein Betriebsführungshandbuch vor, sind zentrale RZ-Betriebsprozesse
wohl definiert? Ist das Rechenzentrum aktuell dokumentiert?
Störmeldeprozess – werden wichtige Parameter des Rechenzentrums überwacht – erfolgen
Störungsmeldungen auch außerhalb der Betriebszeiten – ist dabei eine zielgerichtete und
zeitgerechte Reaktion verbunden.
Liegt ein aktuelles Notfallhandbuch bzw. ein Notfallkonzept vor?
Sind für zentrale Störmeldungen Alarmkarten bzw. Notfallpläne definiert?
Sind die Begriffe Störung, Notfall, Krise praxisgerecht voneinander abgegrenzt?
Sind Verantwortlichkeiten und Abläufe klar beschrieben?
Gibt es einen jährlichen Plan zum Test von Notfallplänen?
Sind die durchgeführten Tests protokolliert – wurden aus den Tests Vorbeugungs- und
Verbesserungsmaßnahmen abgeleitet?
Sind diese Maßnahmen umgesetzt worden?
Wird regelmäßig überprüft, ob sich Risiken verändert haben?
Gibt es Prüfungshinweise aus der Wirtschaftsprüfung, Revision, von Aufsichten oder anderen
Prüfern?
Standortbestimmung - RZ-Check





Ganzheitliche Standortbestimmung für Rechenzentren – Konzeption und Betrieb.
170 Fragen zur Rechenzentrumssicherheit und zur Energieeffizienz:
 Organisation und Prozesse
 Energieversorgung
 Geografie und Umfeld
 Kälte, Klimatisierung und Luftführung
 Gebäudestruktur und Raum
 Netzwerkverkabelung und Datenanbindung
 Brandgefahr und Brandschutz
 Energieeffizienz
 Wassergefahr und Wasserschutz
 Monitoring
 Zugangs- und Einbruchschutz
 Ordnung und Sauberkeit
Darstellung der Ergebnisse im Radardiagram.
Empfehlungen und Hinweise zur Verbesserung häufig aus dem Bereich Betriebsprozesse.
Typische Inhalte eines „Praxis“ - Notfallhandbuch







Allgemeine Definitionen:
 Definition Verfügbarkeit
 Definition Störung, Definition Notfall, Definition Krise
 Definition Notfallmanagement:
 Definition Notfallmanager/Notfallteam, Krisenstab/Krisenorganisation
 Verhaltensregeln
 Verantwortlichkeiten
 Notfallbewältigung und Rahmen für Notfall- und Krisenpläne
 Dokumentation eines Notfalls
Alarm- und Eskalationsstrategien
Sofortmaßnahmen
Alarmkarten/Notfallpläne
Weitere Maßnahmen, unmittelbar nach dem Notfall, Dokumentation
Planung des Tests von Notfallplänen, Test von Notfallplänen
Ableitung von Vorbeugungs- und Verbesserungsmaßnahmen
Notfallhandbuch Überlegungen








Welche Single Point of Failure erhöhen die Wahrscheinlichkeit eines Notfalls
 In der Rechenzentrumskonzeption
 Schadstoffe in der Rechenzentrumsluft, Wasser im Kaltwassersystem, vagabundierende
Ausgleichströme
Sicherheitskonzept und Bewertung von Risiken – welche Gegenmaßnahmen sind angebracht und
wirtschaftlich vertretbar
Wie wahrscheinlich ist ein Brand im Rechenzentrum – und wie gut sind die Prozesse in der
Brandfrüherkennung – ist dieses Risiko wirksam verlagert (Versicherung) – können durch eine
Löschung Schäden entstehen?
Wie hoch ist das Risiko eines Einbruchs einzuschätzen?
Wie hoch ist das Risiko einer Überschwemmung bzw. eines Starkregens?
Wie stark sind die Gefährdungen durch Unwetter und Stürme einzuschätzen?
Wird der Rechenzentrumsverbund tatsächlich wirksam betrieben
 Sind die Systeme vollständig entflochten?
 Halten die Cluster- und Spiegelsysteme?
Werden sich anbahnende Fehler rechtzeitig erkannt und verhindert?
Datenpunktliste und Störmeldeliste








Die Systeme des Rechenzentrums werden durch ein oder mehrere Systeme überwacht:
 Elektro
 Klimatisierung
 Meldeanlagen ( Zutritt, EMA, Video, BMA, RAS, Löschanlage)
Die überwachten Punkte sind in Datenpunktlisten beschrieben
Die Störmeldeliste greift diese Datenpunkte (events) auf, definiert deren Gewichtung, erklärt
Zusammenhänge, die Kommunikation und das Vorgehen bei der jeweiligen Meldung.
Das Zusammenspiel der unterschiedliche Infrastruktur- und IT Überwachungssysteme wird
verdeutlicht.
Für jede Meldung der Liste wird eine Alarmkarte/ein “Notfallplan“ abgestimmt und
fortgeschrieben.
Für größere Ausfälle wird ein Wiederanlaufplan mit der Möglichkeit der Lagebeurteilung
entwickelt.
In diesem Plan wird auch definiert, nach welcher Zeit Anwendungen bzw. Geschäftsprozesse
wieder zur Verfügung stehen müssen.
Die Datensicherung muss entsprechend ausgerichtet werden.
Beispiel Alarmkarte (I)
Beispiel Alarmkarte (II)
Beispiel Alarmkarte (III)
Darstellung von Abläufen bei Störungen
Zusammenfassung und Hinweise










Aus Sicht der PRIOR1 sollte das Notfallmanagement praxisbezogen und handhabbar sein.
Je nachdem in welchen Kontext das Notfallmanagement aufgebaut werden soll sind in der Regel
spezifische Formalien zu beachten.
Die Konzeption des Rechenzentrums oder Rechenzentrumsverbundes gibt einen ersten Schutz
gegen mögliche Ausfälle bzw. Notfälle.
Mit dem RZ-Check der PRIOR1 ist eine einfache und schnelle Standortbestimmung möglich.
Sorgfältige Betriebsprozesse verringern die Wahrscheinlichkeit eines Notfalls weiter.
Die angestrebte Wiederherstellungszeit muss durch die Datensicherungsstrategie abgesichert
werden.
Der Rahmen für das Notfallmanagement wird durch das Notfallhandbuch gegeben. Dieses muss
nicht unbedingt umfangreich sein.
Die Meldungen der Datenpunktlisten können über die Störmeldeliste aufgenommen und daraus
Alarmkarten abgeleitet werden.
Regelmäßige, jährlich geplante Notfalltests machen die Mitarbeiter mit den Notfallplänen vertraut
und helfen bei deren Abrundung.
Der daraus entstehende kontinuierliche Verbesserungsprozess bildet einen wichtigen Grundstein
für Compliance und externe Anforderungen sowie als Basis für Zertifizierungen.
Vielen Dank!
Document
Kategorie
Technik
Seitenansichten
16
Dateigröße
1 284 KB
Tags
1/--Seiten
melden