KI-Entscheidungen im Unternehmen: Fünf Fragen im Thema Smart Governance

Vernetzte KI-Systeme treffen folgenreiche Entscheidungen – doch Nachvollziehbarkeit, Bias-Kontrolle und Governance halten nicht Schritt.

18. März 2026 · 6 min

Moderne KI-Systeme entscheiden selten allein. Sie bestehen aus mehreren Komponenten, die miteinander kommunizieren, Aufgaben weitergeben und gemeinsam zu einem Ergebnis kommen. Anträge, Versicherungsprämien, Betrugsverdacht – das alles läuft zunehmend durch solche vernetzten Systeme. Was dabei oft fehlt: ein klares, nachvollziehbares Bild davon, was diese Systeme eigentlich genau tun und wie man dies kontrolliert.

Lässt sich nachvollziehen, wie eine Entscheidung zustande kam?

Bei klassischer Software gibt es einen Programmcode – und damit eine Antwort. Bei vernetzten KI-Systemen – sogenannten Multi-Agent-Systemen (MAS) – entsteht das Ergebnis aus dem Zusammenspiel mehrerer Modelle, Datenzugriffen und Zwischenschritten. Werkzeuge, die solche Entscheidungsketten aufzeichnen, existieren – Frameworks wie OpenTelemetry [1], Plattformen wie Langfuse [2] oder Datadog [3]. Sie funktionieren gut, solange alle beteiligten Komponenten aus einer Hand kommen.

Sobald jedoch externe Dienste eingebunden werden – was in der Praxis die Regel ist – reißt die Nachvollziehbarkeitskette häufig ab. Das zugrundeliegende Kommunikationsprotokoll MCP (Model Context Protocol) [4], über das viele dieser Dienste miteinander verbunden werden, hat kein natives Tracing-Verfahren. Das steht explizit auf der offiziellen MCP-Roadmap als offene Lücke [5]. Wessen Logs gelten, wenn drei Anbieter an einer Entscheidung beteiligt waren, ist heute technisch und rechtlich ungeklärt.

Ist das regulatorisch relevant – oder eher akademisch?

Für Banken und Versicherungen in der EU: eindeutig relevant. Der EU AI Act klassifiziert KI-Systeme zur Bonitätsbewertung und zum Kreditscoring natürlicher Personen sowie Systeme für Risikoeinschätzung und Pricing bei Lebens- und Krankenversicherungen explizit als hochriskant [6].

Der 2. August 2026 ist die zentrale Compliance-Deadline. Bei Verstößen gegen die Pflichten für Hochrisiko-Systeme drohen Bußgelder von bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes; bei Verstößen gegen die verbotenen KI-Praktiken (Art. 5) sogar bis zu 35 Millionen Euro oder 7 % [7]. Ein Hinweis zur Planung: Die Europäische Kommission hat am 19. November 2025 das „Digital Omnibus on AI”-Paket vorgeschlagen, das die Hochrisiko-Fristen auf spätestens Dezember 2027 verschieben könnte – aber nur unter der Bedingung, dass harmonisierte Standards rechtzeitig verfügbar sind. Ob das Paket in dieser Form angenommen wird, ist offen [8]. Wer auf diese Verschiebung wettet, geht ein regulatorisches Risiko ein.

Was die Regulierung nicht liefert: klare technische Standards dafür, wie Nachvollziehbarkeit bei vernetzten Systemen mit mehreren Anbietern konkret umzusetzen ist. Laut IBM haben 63 % der Organisationen keine etablierten AI-Governance-Initiativen – trotz breitem operativem KI-Einsatz [9]. Branchenanalysen zeigen zudem, dass nur 18 % der Unternehmen ein vollständig implementiertes AI-Governance-Framework haben, obwohl 88 % KI operativ einsetzen [10]. Das ist der eigentliche Ausgangspunkt.

Diskriminiert das System bestimmte Gruppen – und würde man es überhaupt merken?

Bias in KI ist kein Randthema der Forschung. Artikel 10 des AI Act schreibt explizit vor, diskriminierende Muster zu identifizieren, zu messen und zu beheben. Das wenig bekannte Problem dabei: Aktuelle Forschung zeigt, dass in vernetzten Multi-Agent-Systemen minimale Verzerrungen einzelner Modelle sich gegenseitig verstärken können – Bias-Amplifikation nennt sich dieses Phänomen. Das Gesamtsystem diskriminiert, obwohl keine Einzelkomponente auffällt – in LLM-basierten Credit-Scoring-Simulationen wurden Amplifikationen von bis zu +1.30 im Accuracy Difference im 99. Perzentil dokumentiert [11].

Werkzeuge für Bias-Tests existieren und sind etabliert – IBM AIF360 [12], Microsoft Fairlearn [13]. Sie funktionieren gut für einzelne Modelle. Für vernetzte Systeme, in denen Agenten über gemeinsame Datenzugriffe (RAG – Retrieval-Augmented Generation) und Werkzeugaufrufe interagieren, gibt es nach aktuellem Stand noch kein marktreifes Framework.

Reicht es, ab und zu stichprobenartig zu prüfen – oder braucht man lückenloses Monitoring?

Beides hat seinen Platz, aber nicht überall. Stichproben-Audits sind ein legitimer Einstieg, solange Continuous Monitoring noch nicht implementiert ist – und bleiben dauerhaft sinnvoll für qualitative Prüfungen, die Algorithmen nicht ersetzen können: Ethik-Edge-Cases, Kontext, menschliches Urteil bei Ausreißern.

Wo Stichproben nicht ausreichen: bei Systemen mit hohem Transaktionsvolumen, weil seltene aber schwerwiegende Fehlentscheidungen statistisch unsichtbar bleiben. Und bei emergenten Bias-Mustern in vernetzten Systemen, die sich erst im Interaktionsprozess zwischen Agenten zeigen – nicht in Einzelentscheidungen.

Für hochriskante Systeme nach Annex III schreibt der AI Act kontinuierliches Monitoring (Art. 72), Incident Reporting ohne Verzögerung (Art. 73) und die Aufbewahrung von automatisch generierten System-Logs für mindestens sechs Monate (Art. 19) vor [14]. Hinzu kommen die Anforderungen an Logging-Fähigkeiten des Systems selbst (Art. 12) und ein kontinuierliches Risikomanagementsystem (Art. 9). Für alle anderen Systeme ist ein abgestufter Ansatz legitim – automatisiertes Anomalie-Scoring mit manueller Tiefenprüfung bei Ausreißern, oder bewusste Risikoakzeptanz mit dokumentiertem Vorstandsbeschluss.

Wo lohnt sich aufwändige Governance – und wo kann man ein kalkuliertes Risiko tragen?

Das ist die strategisch ehrlichste Frage. Ein interner Dokumentenassistent trägt ein anderes Risikoprofil als ein automatisiertes Kreditscoring-System. Wer alle Systeme gleich behandelt, verschwendet Ressourcen dort, wo es nicht nötig ist – und riskiert, die kritischen Stellen zu übersehen.

Für große Unternehmen rechnen Branchenanalysen mit 8 bis 15 Millionen Dollar initialer Investition für die Compliance hochriskanter Systeme [15]. Das macht die Priorisierung zur eigentlichen strategischen Aufgabe.

Vereinfachte Governance als bewusstes Risikoakzeptanz-Statement ist legitim – aber nur wenn die Klassifizierung des jeweiligen Systems explizit, dokumentiert und auf Vorstandsebene abgenommen wurde. Dazu gehört für hochriskante Systeme vor dem Einsatz verpflichtend eine FRIA (Fundamental Rights Impact Assessment) – eine Folgenabschätzung für Grundrechte (Art. 27). Die Unterscheidung zwischen Provider (wer das KI-System entwickelt oder verantwortet) und Deployer (wer es einsetzt) ist dabei keine Formalität, sondern eine rechtlich folgenreiche Klassifizierung – wer ein bestehendes Modell für neue Zwecke einsetzt, kann damit unbeabsichtigt vom Deployer zum Provider werden und damit in die volle Compliance-Pflicht rutschen (Art. 25 Abs. 1, insbesondere lit. b und c) [16]. Hinzu kommt: DORA (Digital Operational Resilience Act) gilt bereits seit dem 17. Januar 2025 und verlangt von Finanzinstituten vertragliche Audit-Rechte auch für externe ICT-Dienstleister – also auch für KI-Dienste von Drittanbietern [17].

Was nicht funktioniert: Governance-Lücken bei kritischen Systemen still als Kosteneinsparung zu behandeln. Eine unausgesprochene Risikoentscheidung ist keine Risikoentscheidung.

Alle regulatorischen Angaben beziehen sich auf den EU-Rechtsraum. Stand: März 2026.

Quellenverzeichnis

[1] OpenTelemetry – Open-Source-Observability-Framework für verteilte Systeme.
Referenz: https://opentelemetry.io

[2] Langfuse – Open-Source LLM-Observability-Plattform mit MCP-Tracing-Unterstützung.
Referenz: https://langfuse.com

[3] Datadog LLM Observability – Monitoring für MCP-Client-Interaktionen.
Referenz: https://www.datadoghq.com/blog/mcp-client-monitoring/

[4] Model Context Protocol (MCP) – Offenes Kommunikationsprotokoll für KI-Agenten und externe Dienste.
Referenz: https://modelcontextprotocol.io

[5] MCP-Roadmap – „Audit trails and observability” als offener Bereich, der noch adressiert werden muss.
Referenz: https://modelcontextprotocol.io/development/roadmap

[6] EU AI Act, Annex III, Nr. 5 (b) und (c) – Klassifizierung hochriskanter KI-Systeme im Finanzsektor.
Volltext: https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX:32024R1689

[7] EU AI Act, Artikel 99 – Gestaffeltes Sanktionssystem: Art. 99(3) bis zu 35 Mio. EUR / 7 % für verbotene KI-Praktiken (Art. 5); Art. 99(4) bis zu 15 Mio. EUR / 3 % für Verstöße gegen Hochrisiko-Pflichten (Art. 16 ff.).
Volltext: https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX:32024R1689

[8] Europäische Kommission, „Digital Omnibus on AI”-Paket, 19. November 2025 – Vorschlag zur Verschiebung der Hochrisiko-Fristen auf spätestens 2. Dezember 2027 (Annex III) bzw. 2. August 2028 (Annex I), unter Vorbehalt der Verfügbarkeit harmonisierter Normen. Das Paket befindet sich im Gesetzgebungsverfahren (Europäisches Parlament und Rat).
Referenz: https://digital-strategy.ec.europa.eu/en/library/digital-omnibus-ai-regulation-proposal

[9] IBM, Cost of a Data Breach Report 2025 / AI Governance Insights – 63 % der befragten Organisationen haben keine etablierten AI-Governance-Initiativen.
Referenz: https://www.ibm.com/think/insights/foundation-scalable-enterprise-ai

[10] Branchenanalysen 2025/2026 zum Stand der AI-Governance-Implementierung – 88 % der Unternehmen setzen KI operativ ein, nur 18 % haben ein vollständig implementiertes AI-Governance-Framework.
Referenz: https://ai2.work/economics/eu-ai-act-high-risk-rules-hit-august-2026-your-compliance-countdown/

[11] „Emergent Bias and Fairness in Multi-Agent Decision Systems” – Peer-reviewed Studie zu Bias-Amplifikation in LLM-basierten Multi-Agent-Systemen.
Referenz: https://arxiv.org/abs/2512.16433

[12] IBM AI Fairness 360 (AIF360) – Open-Source-Toolkit für die Erkennung und Minderung von Bias in Machine-Learning-Modellen.
Referenz: https://github.com/Trusted-AI/AIF360

[13] Microsoft Fairlearn – Open-Source-Framework zur Bewertung und Verbesserung der Fairness von KI-Systemen.
Referenz: https://github.com/fairlearn/fairlearn

[14] EU AI Act – Pflichten für Anbieter und Betreiber hochriskanter KI-Systeme.
Volltext: https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX:32024R1689

[15] Branchenschätzungen zur EU-AI-Act-Compliance-Investition für große Unternehmen (>1 Mrd. EUR Umsatz): 8–15 Mio. USD initiale Investition für Hochrisiko-Systeme.
Referenz: https://techpinions.com/why-the-eus-ai-act-is-about-to-become-every-enterprises-biggest-compliance-challenge/

[16] EU AI Act, Artikel 25 – Verantwortlichkeiten entlang der KI-Wertschöpfungskette.
Volltext: https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX:32024R1689

[17] DORA (Digital Operational Resilience Act) – Verordnung (EU) 2022/2554.
Referenz: https://www.digital-operational-resilience-act.com

AI Governance EU AI Act Multi-Agent-Systeme