Digitalisierung in Zeiten von VUCA
Mit Resilienz-Engineering fundiert Überleben sichern.
von Alexander Weichselberger
Mit der zunehmenden Digitalisierung steigt die Abhängigkeit von IT Systemen. Gleichzeitig steigt das Risiko, dass diese IT Funktionen nicht bereitstehen, zumindest im gleichen Ausmaß. Dazu kommt, dass wir uns in einer VUCA Welt befinden – dh. alles volatiler, unbeständiger, komplexer und mehrdeutiger ist. Antizipiert man aus diesen Entwicklungen die potentiellen Risiken, Krisen und Katastrophen, dann ist Schluss mit Trial-and-Error und „Wird schon nix passieren!“. Mit Resilienz-Engineering fundiert Überleben sichern.
Es pfeifen die sprichwörtlichen Spatzen vom Dach: Keine Frage, Digitalisierung ist heute die Antwort auf die Frage, wie wir künftig leben werden. Im privaten (Facebook, WhatsApp, Amazon, usw.) wie auch im unternehmerischen Umfeld (CRM, ERP, Cloud Dienste, Mobile Apps, usw.) ist die Digitalisierung, also der Einsatz von Informations- und Kommunikationstechnik um Abläufe effizienter zu machen und die Wirtschaftlichkeit zu steigern, der Ansatz für die Zukunft. Es gibt kaum noch Bereiche, die ohne Digitalisierungsmöglichkeiten und -perspektiven über weitere Wachstums- und Entwicklungsperspektiven nachdenken. Dabei sind Politik und alteingesessene Unternehmen – insbesondere im nicht-amerikanischen Umfeld – tendenziell überfordert („Wie das wirklich angehen?“), aber das ist eine andere Geschichte.
Ist Digitalisierung riskant?
Seit dem Millenniumswechsel haben wir IT architektonisch viele Neuerungen eingeführt, die unsere IT Systeme mehr und mehr exponieren. Wie in nebenstehender Tabelle zusammengestellt sind Vernetzung, Integration, Devices die miteinander sprechen und Datensammlungen die Quelle für eine Vielzahl von Risiken.
IT Pattern bzw. Architektur | Risiko |
Mehr Outsourcing von IT Infrastruktur in die Cloud |
Down Time Risiko Mehr Komponenten und mehr an Abhängigkeiten von der Verfügbarkeit aller an der Wertschöpfung beteiligter Systeme erhöht die Anforderungen an Redundanzen und Flexibilität im gesamten Verbund. (1) (2) |
Mehr Internet Connectivity industrieller Devices |
The Internet of (Insecure) Things IOT Funktionalität befindet sich nicht nur in Fahrzeugen. Nahezu in allen Lebensbereichen kann man IOT Devices sehen: Fernseher, Spielplattformen, Öfen, Waschmaschinen, Kühlschränken, Glühbirnen, Kinderspielzeug,... . Oft sind diese Geräte nicht nur am Netz, sondern auch noch mit einer Vielzahl von Sensoren ausgestattet: Kameras, Temperatursensoren, Geo Informationen, dynamische (Bewegungs)Sensoren. All diese Funktionen öffnen potentiellen Angreifern einen Vielzahl von Eingängen in unser privates und unternehmerisches Umfeld. (3) |
Mehr Einsatz privater Devices im Unternehmensnetzwerk |
Bring Your Own Virus Mobile Versionen von Malware können Smartphones infizieren und das Unternehmensnetz auf mehreren Wegen exponieren. (4) (5) (6) |
Mehr Online-Einsatz persönlicher Daten |
Social Hacking erleichtern Entgegen der von der EU verordneten Datenschutzgrundverordnung (DSGVO) werden immer mehr und mehr personenbezogene Daten online verarbeitet (Probleme im Kontext: Technischer Schutz, Minimumprinzip, usw.). Zusätzlich kommen zum potentiellen Datenverlust hier noch im besonderen Maße Sicherheitsgefährdungen dazu: Hat der Social Hacker viele personenbezogene Daten, ist ein Angriff deutlich einfacher. Der Mensch ist und bleibt einfach die Schwachstelle. (7) |
Ist also Digitalisierung riskant? Meiner Meinung nach: Ja. Es kommen einfach neue transparente bzw. vernetzte Möglichkeiten ins Spiel, die wir z.B. in einer „offline, old fashioned Silo Lösung“ nicht hätten. Zum Guten, aber auch zum Bösen.
VUCA – Problem und Lösung
Kennen Sie „bullshit-bingo“? Im Kern geht es darum, eine vorgegebene Sammlung von Buzzwords in z.B. einer Präsentation oder Fachartikel zu identifizieren. Hat man alle Wörter auf der Sammlung abgehakt, hat man gewonnen und darf sich durch ein lautstarkes „Bullshit“ melden. Stellen wir mal eine Sammlung solcher Buzzwords zusammen; ich hätte hier: „Digitalisierung“, „Scrum“, „Kanban“, „agiles Vorgehen“, „Industry 4.0“, „Disruption“ und „Demokratisierung von Führung“. Kaum ein aktueller Business Talk kommt ohne diese Begriffe aus. Hier geht es allerdings nicht nur um Buzzwords, sondern um die Basis für grundlegende Veränderungen, die durch die technischen Möglichkeiten gestützt bzw. auch gepushed werden.
Diese Wandlungsfähigkeit wird durch das Akronym VUCA „Volatility“, „Uncertainty“, „Complexity“ und „Ambiguity“ gut beschrieben. Und ein Haupttreiber dafür ist die Digitalisierung.
Ursprünglich ist VUCA ein Ergebnis aus einer Analyse aus dem militärischen Umfeld: Die Kontrahenten in den letzten Kriegen in Afghanistan und Irak, und dem damit einhergehenden Terrorismus, haben sich nicht mehr am Schlachtfeld gegenübergestellt, sondern haben in der Auseinandersetzung auf andere Strategien gesetzt. Dadurch mussten Gegenmaßnahmen entwickelt werden, wie mit dieser Art von Auseinandersetzung damit umgegangen werden kann.
Problem | Militärische Analyse und "-->" Maßnahmen | Gegenstrategie |
Volatilität ("volatility") |
Einzelne, schnelle kriegerische Aktionen --> Dezentralisierung: eigene Entscheidungszyklen müssen schneller sein als die gegnerischen Entscheidungsprozesse |
Vision ("vision") |
Unsicherheit ("uncertainty") |
häufige Unvorhersehbarkeit von Angriffen --> Handeln auch ohne vollständigen Überblick über die Lage |
Verstehen ("understanding") |
Komplexität ("complexity") |
Kommandostrukturen und Koordinationsprinzipien sind nicht erkennbar. Das gegnerische Netzwerk besitzt vielen Kommunikationsbeziehungen --> Implementierung selbststeuernder Teams, ex-ante vereinbarte Prioritäten |
Klarheit ("clarity") |
Mehrdeutigkeit ("ambiguity") |
Mehrdeutig: Es kann sich um kriegerische oder friedliche Akteure handeln --> Schwache Informationen dezentrale Entscheidungen werden besser vernetzt. |
Agilität ("agility") |
(8) Frei nach Ulrich Lenz, „Coaching in Kontext der VUCA-Welt: Der Umbruch steht bevor“
Zusammengefasst: Das Umfeld ist VUCA – und auch das wird sich wohl steigern. Die technische Exposition wird durch die fundamentalen Entscheidungen der Digitalisierung noch wesentlich verschärft. Dagegenhalten kann man mit einer Vision, Verstehen und Klarheit auf der Basis von Ausschnitten der Gesamtsituation sowie agilem Vorgehen. Und mit Resilienz.
Was ist nun Resilienz – und wie kann das helfen?
Resilienz ... ist allgemein gesprochen ein dynamischer Anpassungsprozess. Es bedeutet sich erfolgreich an Herausforderungen anzupassen und diese zu meistern. Dabei darf man keinen Schaden nehmen und sollte – bestenfalls – aufgrund dieser Erfahrungen wachsen und reifen. |
Die Basisüberlegungen zur Resilienz kommen aus der Human-medizin und beschäftigen sich mit der Leistungsfähigkeit von Menschen in Krisenfällen.
Die Mechanismen zwischen Menschen und IT Systemen sind diesbezüglich vergleichbar. Es stellen sich generell die gleichen Fragen:
- Was ist die Ausgangsposition vor der Krise – und welche Abwehrmechanismen sind bereits vorhanden/etabliert?
- Wie tiefgreifend wirkt die Krise?
- Wie rasch kann man diese Krise überwinden, wie schnell läuft die Wiederherstellung der vollen Leistung?
- Gibt es eine Steigerung gegenüber der vorhergehenden Leistungsfähigkeit?
Relevant sind mehrere Faktoren, die eine Beurteilung beeinflussen: Zwar kann man eine Krise generell immer nur im Nachhinein betrachten, aber es ist relevant, ob man die Situation vor, in oder nach der Krise betrachtet. Darüber hinaus ist es auch schwieriger, wenn mehrere Krisen parallel auf das System (oder den Menschen) wirken. Wesentlich ist auch, wie das Umfeld (= soziales Umfeld, Unternehmen) sich hinsichtlich gelebter Führung und Wertehaltung real verhält – können / dürfen / müssen wir aus Fehlern lernen, oder ist eine Verdeckung von Fehlern taktisch. Einen großen Einfluss hat natürlich auch die Krisendauer: Besteht diese kurzfristig, oder dauerhaft?
Krise – oder doch Katastrophe?
Resilienzbetrachtungen beziehen sich letztendlich immer auf Krisen. Eine Krise („entscheidende Wendung“) ist – lt. Duden.de – definiert als eine schwierige Situation, die Höhe und Wendepunkte einer gefährlichen Entwicklung darstellt. Da es sich um einen Wendepunkt handelt, kann diese Krise immer erst ex-post, dh. wenn sie abgewandt oder beendet wurden, als solche festgestellt werden.
Nimmt die Entwicklung einen dauerhaften negativen Verlauf, so spricht man von einer Katastrophe („Niedergang“).
Allen Krisen gleich stehen folgende Herausforderungen gegenüber: Welche Basismerkmale sind etabliert, die der potentiellen Krisen entgegenhalten? Wie Krisen frühzeitig erkennen? Welche Standards, wie Notfallpläne, Checklisten und Interventionscenter (= Hilfe von außen), sind etabliert, um Krisen rasch zu beenden? Welche Standards sind vorgesehen, um aus Krisen gestärkt / verbessert einen höheren Level an Leistungsbereitstellung zu erreichen?
Resilienz - Engineering
Im Kern geht’s darum, im Standard der Leistungsfähigkeit zu bleiben („Vorhersehen“, „Standhalten“) und, wenn Krisen notwendig sind (Krise = entscheidende Wendung), gilt es die Leistungsfähigkeit früher und schneller wiederherzustellen („Wiederherstellen“) und dabei im Idealfall mit einem Lerneffekt die Leistungsbereitstellung noch zu steigern („verbessern“).
Nun, wie am Besten angehen?
Es hängt wie so oft am richtigen Mix – hier mal ein Ausschnitte aus einem möglichen Lösungs-VUCA („vision“, „understanding“, „clarity“ & „agility“):
VUCA | Ansatz | Ziel | Beispiele für technische Umsetzungen |
Vision ...Ziel und angestrebter Zustand zur Erfüllung der Mission |
Kill Kill-Path | Maximale Hürden für Hacker und Fehler; Vermeiden, dass Schäden entstehen können, weil Angriffspunkte zu offensichtlich sind oder Fehlhandlung nicht aktiv vermieden werden | IDS, IPS; mehrstufige Securityzonen; 4- Augen-Prinzip; programmierte Konfiguration und automatisierte Systemkonfiguration |
Minimumprinzip bei Datenspeicherung und Connectivity | Potentielle Ausbeute und Angriffsmöglichkeiten bewusst gering halten | Datenoperationen im Arbeitsspeicher, Verbindungen nur temporär | |
Understanding ...frühzeitig verstehen, was los ist |
Vorhersagen und automatisierte Empfehlungen |
Prognosemodelle für KPIs, nahe Echtzeitanalyse Rasche Identifikation einer Krise |
Betriebsüberwachung / Monitoring, Performance Profiling, IDS, IPS |
Integritätsnachweise | Ermittlung, ob kritische Systemelemente korrumpiert wurden | Automatisierter Test der Datenqualität; Integritätschecks externer Systeme | |
Clarity
... intern klares Verständnis, was zu tun ist; nach extern: Verschleierung und Verwirrung |
Don’t let me think | Klare Vorgaben, Anweisungen und Checklisten für Development, Deployment und Operations | Entwickler- und Betriebshandbücher, statische und dynamische (Code) Analyse |
Dynamische Konfiguration, volatile Betriebsabläufe, aktive Falschinformationen (Antipatterns) | Ziel wird schwieriger greifbar |
Verschlüsselung Daten und -verkehr; Desinformation der Communities System wird scheinbar zufällig und unvorhersehbar verändert |
|
Agility ...aktiv Krisen meistern können |
Flexibilität | Rasch und geeignet auf Krisen reagieren | Überlastungsschutz, Load Balancing |
Segmentierung und Redundanzen | Einschränkung von Schäden auf einzelne Systemteile; Vorhaltung ausreichende Ressourcen in den jeweiligen Szenarien | System-Partitioning, Prozess-Isolierung auf unterschiedliche Systemteile; distributed datacenter |
Diese Zusammenstellung ist natürlich nur ein Auszug hinsichtlich möglicher und sinnvoller Aktivitäten. U.a. wurden nur Teile des „Systems Security Engineering: Cyber Resiliency Considerations for the Engineering of Trustworthy Secure Systems“ gelistet, andere essentielle Bereiche hinsichtlich Kriseninterventionscenter, interne und externe Mitarbeiter als Akteure im jeweiligen Systemkontext usw. gar nicht erwähnt.
Im Wesentlichen müssen wir die richtigen Maßnahmen richtig priorisieren und reihen, instrumentalisieren und deren Zusammenspiel testen. Öfters auch im Produktionssystem einzelne Krisen bewusst provozieren um den Status Quo des Systems, auch über die Zeit, immer wieder kennenzulernen und uns Platz einzuräumen aus bestehenden Schwächen zu lernen und Resilienz zu entwickeln.
Weiterführende Informationen
Quellenverzeichnis:
[1] 16.8.2013 – Ausfall eines einzigen Unternehmens: Google. Und damit rd. 40% des globalen Internet Verkehrs
- Tim Worstall, “Analyzing Friday’s Google Outage”, https://www.forbes.com/sites/timworstall/2013/08/19/analysing-fridays-google-outage/#72fbcd0f6ede , 14.7.2019, 09:17
- Simon Tabor, “Google’s downtime caused a 40% drop in global traffic”, https://engineering.gosquared.com/googles-downtime-40-drop-in-traffic, 14.7.2019, 08:15
[2] Oktober 2013 – Ausfall von Microsoft’s Azure Plattform – zwei mal in zwölf Monaten
- https://www.theregister.co.uk/2013/10/30/windows_azure_global_fail/, 12.7.2019, 20:05
[3] 2013 auf der Defcon Hacker’s conference – Nachweis, wie leicht die Lenkung oder Bremsen eines Toyota Prius übernommen werden kann.
- https://www.computerworld.com/article/2484616/researchers-reveal-methods-behind-car-hack-at-defcon.html, 1.7.2019, 12:05
[4] Ende 2012 – Ciscos mobile BYOD strategy: “Mobile at Cisco is now BYOD, period.” Brett Belding, senior manager Cisco IT Mobility Service.
- https://blogs.cisco.com/security/standing-up-to-threats-the-cisco-2013-annual-security-report-and-security-intelligence-operations?dtid=osscdc000283 , 26.6.2019, 15:05
[5] Die mobile Version von FinSpy/FinFisher loggt für Angreifer eingehende und ausgehende Anrufe.
[6] Mobile Malware kann auch in Form von SMS Nachrichten kommen: Der User wird über die Zustellung von DHL Paketen informiert, klickt auf den Tracker Link... .
[7] Social Engineering – der Mitarbeiter als Angriffsziel
- Quelle https://www.wko.at/Content.Node/blogs/it-safe/Social-Engineering.html, 17.3.2019, 12:03
[8] Coaching im Kontext der VUCA-Welt: Der Umbruch steht bevor, Ulrich Lenz, © Springer Fachmedien Wiesbande GmbH; J. Heller (Hrsg.), Resilienz für die VUCA Welt, https://doi.org/10.1007/978-3-658 -21044-1_4