IT-Monitoring

Event Escalation

Es gibt kein Schicksal. Es gibt nur falsche Reaktionen auf Ereignisse ...

Kontrolliertes Eskalation Management

Die Dringlichkeit der Entstörung lässt sich in Cloud Infrastrukturen vielfach durch die Bereitstellung von Hardwareredundanz entschärfen. Redundanzen sind jedoch nicht auf allen operativen Ebenen realisierbar. Insbesondere auf der Software Ebene sollten deshalb frühzeitig Prozesse definiert werden, die zu einer koordinierten und kontrollierten Problembehebung führen.

Ein erfolgreiches Eskalation Management zeichnet sich dadurch aus, dass typische Fehlerszenarien bereits im Vorfeld erkannt und effektive Lösungsabläufe proaktiv entwickelt werden. Die Logiken dieser Workflows und die zu aktivierenden Prozesse sind in Form von Eskalationsschemata zu definieren. Die Initiierung und Kontrolle der Workflows nach Eintreten entsprechender Ereignisse erfolgt dann automatisch durch das Monitoring System.

Konfigurierbare Escalationsschemen
Die Reaktion auf Monitoring Ereignisse erfolgt durch Schemata, die individuell konfigurierbar sind. Die Wahl des Schemas ist u.a. abhängig von der Klassifizierung des Ereignisses.
Individuelle Workflows zur Bearbeitung von Monitoring Ereignissen
Die Schemata enthalten spezifische Workflows gemäß der betroffenen Infrastruktur, den operativen Ebenen und zeitlichen Vorgaben für 24/7 in der Nacht oder an Feiertagen.
Priorisierung der Monitoring Ereignisse
Eine Logik zur Priorisierung ermöglicht die Kaskadierung von Workflows. Jeder einzelne Workflow wird auf Wirksamkeit überprüft. Ggfs. wird die Eskalation automatisch beendet.

Automatisiertes Recovery

Automatisch initiierte Recovery Prozesse reduzieren die MTTR (mean-time-to-recovery) beträchtlich und können in vielen Fällen Betriebsunterbrechungen gänzlich vermeiden. Im Rahmen des Self-Managing von virtuellen Cloud Infrastrukturen haben wir automatisierte Reaktionen auf Monitoring Ereignisse für die Kategorien Configuring, Healing und Optimization implementiert.

Die Prozesse selbst sind Bestandteil unseres Konfigurationsmanagementsystems und sind über Schnittstellenmodule in die Workflows der Eskalationsschemata eingebunden.

Self-Configuring

Hierunter fallen Prozesse, die die bedarfsgerechte Bereitstellung von Systemressourcen steuern.

Das Hinzufügen oder Entfernen eines virtuellen Systems in einer Private Cloud Infrastruktur ist ein klassisches Beispiel für diese Kategorie.

Self-Healing

Dies sind Verfahren, die proaktiv nach erkannten Anomalien aktiviert werden.

Der kontrollierte Neustart einer Applikation bei sog. Memory Leaks ist eine Funktion des Self-Healings. Im Clusterverbund können diese Aktionen unterbrechungsfrei erfolgen.

Self-Optimizing

Funktionen zur Anpassung von Systemparameter und Ressourcen wie vCPUs, Memory oder Disk Kapazität.

Die adaptive Lastverteilung beim Local Traffic Management zur optimalen Nutzung der Ressourcen ist ebenfalls Bestandteil des Self-Optimizing.

Alerting und Kommunikation

Falls eindeutige und somit automatisierbare Reaktionen aus der Ereignisanalyse nicht ableitbar sind, kommt die klassische Eskalation auf der Basis von Alarmierung und Kommunikation zum Einsatz. Diese Verfahren finden auch dann Anwendung, wenn automatisierte Prozesse nicht zum gewünschten Ergebnis führen.

Für Eskalationsschemata stehen umfangreiche Konfigurationsparameter wie Kalender, Verzögerung, Wiederholungsintervall, Throttling zur Verfügung. In Verbindung mit der Event Analyse wird dadurch erreicht, dass ausschließlich beachtenswerte Ereignisse eskaliert werden. Schemata mit Benachrichtigungen bieten folgende Funktionen:

  • Integriertes NetChat Modul zur direkten Kommunikation vom Teammitglieder und Dokumentation der Bearbeitung
  • Detaillierte Benachrichtigungen via E-Mail inkl. relevanter Informationen der Ereignisanalyse und bewerteter Metriken
  • SMS Benachrichtigungen mit Kurzfassung des Ereignisses und spezifischem Link zur Web-Console
  • Automatisierte Erstellung von Tickets zur Weiterbearbeitung in anderen Systemen.

Hierarchische Steuerung

Ein weiterer Vorteil des hierarchischen Datenmodells liegt in der Vererbung von Eskalationionsschemata, um die identische Behandlung gleicher Ereignisse für alle Systeme der virtuellen Cloud Infrastruktur zu gewährleisten. Um Ausnahmefälle konfigurieren zu können, besteht die Möglichkeit spezifische Schemata in der Hierarchie zu verankern.

Generell vereinfachen hierarchisch arbeitende Funktionen die Steuerung verschiedener Monitoring-Prozesse erheblich. So kann das komplette Monitoring, das Prozessing und/oder das Aufzeichnen der Metrikdaten über ganze Hierarchie-Ebenen mit einem Mausklick oder über Kalender-gesteuerte Schemata deaktiviert und wieder aktiviert werden.