Die Reihe zur KI-Architektur – Teil 2
Im ersten Teil dieser Reihe haben wir dargelegt, warum die Wahl der richtigen KI-Architektur entscheidend ist, insbesondere in regulierten Umgebungen, in denen sich eine falsche Entscheidung mit der Zeit immer stärker auswirkt. Dieses Mal befassen wir uns mit den Bausteinen selbst.
Moderne KI-Systeme sind nicht monolithisch aufgebaut. Sie bestehen aus verschiedenen Schichten, von denen jede eine andere Aufgabe erfüllt. Wenn man versteht, wozu die einzelnen Schichten dienen, fällt es viel leichter , Tools zu bewerten, die richtigen Fragen zu stellen und die Falle zu vermeiden, Funktionen statt Infrastruktur zu kaufen.
Die Beispiele in diesem Artikel sind bewusst einfach gehalten. Das Ziel besteht darin, zu zeigen, wie die Ebenen miteinander verbunden sind, und nicht darin, reale Arbeitsabläufe nachzubilden. Im nächsten Artikel werden wir uns damit befassen, wie diese Architektur in der Praxis speziell im Finanzdienstleistungsbereich aussieht.
Ebene 1: Das LLM, die Schlussfolgerungs-Engine
Ein großes Sprachmodell (LLM) bildet das Herzstück der meisten modernen KI-Systeme. Es ist die Komponente, die Texte liest, schreibt, zusammenfasst, analysiert und Antworten generiert. Wenn von GPT-4, Claude oder Gemini die Rede ist, sind damit LLMs gemeint.
Stellen Sie sich das LLM als Gehirn vor. Es kann über ein enormes Spektrum an Themen und Formaten hinweg Schlussfolgerungen ziehen und Inhalte generieren, aber von sich aus kennt es weder Ihre internen Daten noch den spezifischen Kontext Ihres Unternehmens oder die Methodik, die Ihr Team anwendet. Es handelt sich um eine universelle Intelligenz: leistungsstark, aber noch ungeschliffen.
Die übrigen Ebenen dienen dazu, diese Intelligenz mit den richtigen Informationen zu verknüpfen und sie auf konkrete, konsistente Ergebnisse auszurichten.
STUFE 1 – NUR LLM
Das Modell weiß eine Menge
Aber nur das, was es während des Trainings gelernt hat. Keine Echtzeitdaten. Kein Unternehmenskontext. Keine Verbindung zur Außenwelt.
⚠️ Was noch fehlt
Das Modell hat keine Möglichkeit, auf Informationen zuzugreifen, die über seine Trainingsdaten hinausgehen. Es kann keine Echtzeitinformationen abrufen, keine Abfragen an Ihre internen Systeme senden und nichts über Ihr Unternehmen wissen. Es handelt sich um eine allgemeine Intelligenz ohne Bezug zu Ihrer Welt.
Schicht 2: MCPs, die Verbindungsschicht
MCP steht für „Model Context Protocol“. Es handelt sich um einen offenen Standard, der festlegt, wie KI-Systeme mit externen Datenquellen und Tools verbunden werden. Ursprünglich von Anthropic eingeführt und mittlerweile branchenweit zunehmend verbreitet, ersetzt MCP ein Gewirr von Einmal-Integrationen durch ein einheitliches Protokoll – ähnlich wie USB-C eine Schublade voller inkompatibler Kabel abgelöst hat.
In der Praxis stellt ein MCP-Server Funktionen (Abfragen einer Datenbank, Auslesen eines Dokumentenspeichers, Abrufen eines Live-Datenfeeds, Ausführen von Code) so bereit, dass KI-Systeme diese erkennen und einheitlich nutzen können. Anstatt für jedes Tool, auf das eine KI zugreifen muss, eine eigene Integration zu entwickeln, verbindet man sie über MCP, und jedes KI-System, das den Standard unterstützt, kann diese Funktionen nutzen.
Eines sollte besonders hervorgehoben werden: MCP regelt den Zugriff, nicht die Intelligenz. Es legt fest, worauf die KI zugreifen kann; was sie mit den gefundenen Informationen macht, bleibt weiterhin dem Modell und den darüber liegenden Schichten überlassen.
Ebene 2 – MCP
MCP bietet dem Modell eine einheitliche Möglichkeit, auf externe Ressourcen zuzugreifen
Auf Live-Daten, APIs und interne Tools zugreifen – ohne für jeden Anwendungsfall eine eigene Verbindung einrichten zu müssen.
Unter der Haube
⚠️ Was noch fehlt
Das Modell kann nun auf externe Daten zugreifen – aber es hat keine Ahnung davon, wie Ihr Unternehmen funktioniert. Es kennt weder Ihr bevorzugtes Ausgabeformat noch die Methodik, die Ihr Team anwendet, noch das Fachwissen, das Ihre Analysen auszeichnet. Zugängliche Daten sind nicht gleichbedeutend mit nützlichen Daten.
Ebene 3: Kompetenzen, die Ebene des Know-hows
Während MCP die Frage „Worauf kann die KI zugreifen?“ beantwortet, beantworten Skills die Frage „Wie soll die KI diese bestimmte Aufgabe ausführen?“
Ein „Skill“ ist ein wiederverwendbares, portables Paket, das einen bestimmten Arbeitsablauf, eine bestimmte Methodik oder Fachkompetenz kodiert. Er kann Anweisungen, Beispiele, Vorlagen und strukturierte Logik zu einer Einheit bündeln, die ein KI-System laden und konsistent anwenden kann. Und genau wie MCP sind Skills als offener Standard konzipiert – das bedeutet, dass ein gut konzipierter Skill über verschiedene KI-Systeme hinweg, die diese Spezifikation unterstützen, geteilt und wiederverwendet werden kann, ohne an eine bestimmte Plattform gebunden zu sein.
Eine gute Metapher stammt aus dem Film „Matrix“: Als Neo Kung-Fu lernen muss, erwirbt er dieses Wissen nicht durch jahrelanges Üben, sondern es wird ihm einfach „installiert“. Ähnlich verhält es sich mit Fähigkeiten. Sie verleihen einem KI-System eine wiederverwendbare Fähigkeit, die Fachwissen in einer Form kodiert, die es sofort und konsistent anwenden kann.
Besonders wirkungsvoll ist dies in Organisationen, die „eine ganz bestimmte Arbeitsweise“ haben. Beispielsweise folgen Analystenberichte in der Finanzbranche einer bestimmten Struktur. Compliance-Memos unterliegen strengen Anforderungen hinsichtlich Format und Tonfall. Beschaffungsentscheidungen folgen einer vordefinierten Genehmigungsmethodik. Ohne entsprechende Fähigkeiten müssten Sie diese Anforderungen jedes Mal neu erklären, wenn Sie eine Aufgabe erledigen. Mit den entsprechenden Fähigkeiten wird die Methodik einmalig kodiert und konsistent angewendet, unabhängig davon, wer sie ausführt oder welches zugrunde liegende Modell dahintersteckt.
Praktisch gesehen ist eine Fertigkeit nichts anderes als ein strukturiertes Dokumentenpaket: Anweisungen, Beispiele, Vorlagen und Referenzmaterial, das das Modell liest und befolgt – ähnlich wie die Methodikleitfäden oder Standardarbeitsanweisungen, die Ihr Team bereits pflegt. Der Unterschied besteht darin, dass es so formatiert ist, dass ein KI-System es konsistent und automatisch anwenden kann, anstatt darauf angewiesen zu sein, dass sich jemand an die richtigen Schritte erinnert.
Nicht jedes Unternehmen ist bereit, vom ersten Tag an vollständige Skills zu entwickeln. Die meisten großen Plattformen bieten eine vereinfachte Version dieses Konzepts in Form von Projekten an: eine Möglichkeit, Kontext, Anweisungen und Dateien über verschiedene Konversationen hinweg zu organisieren und zu speichern, sodass das Modell Ihre Präferenzen und Ihr Wissen weitergibt, ohne jedes Mal neu eingewiesen werden zu müssen. Projekte sind weniger leistungsfähig und übertragbar als ein Skill, aber sie sind ein praktischer Ausgangspunkt für Teams, die Konsistenz wünschen, ohne den Aufwand, der mit der Erstellung und Verteilung von Skills im gesamten Unternehmen verbunden ist.
Der entscheidende Unterschied: MCP = Zugang. Fähigkeiten = Methode.
EBENE 3 – FÄHIGKEITEN
Die Fähigkeit sagt dem Modell, was es wissen muss. Der MCP sagt ihm, wo es suchen muss.
Gemeinsam lässt sich eine Frage, die das Modell allein nicht hätte beantworten können, präzise und strukturiert beantworten.
Unter der Haube
Hier ist das Wetter an allen Standorten:
New York 7 °C, teilweise bewölkt London 12 °C, bedeckt São Paulo 24 °C, Schauer
Singapur 31 °C, feucht Madrid 16 °C, klar
⚠️ Was noch fehlt
Das Modell kann zwar auf die richtigen Daten zugreifen und Ihre Methodik anwenden – doch komplexe, mehrstufige Arbeitsabläufe erfordern nach wie vor jemanden, der die einzelnen Schritte manuell koordiniert. Je mehr Schritte eine Aufgabe umfasst, desto mehr menschlicher Aufwand ist erforderlich, um sie miteinander zu verknüpfen.
Ebene 4: Agenten, die Koordinationsschicht
Ein Agent ist ein System, das ein LLM mit Werkzeugen, Anweisungen und Logik kombiniert, um mehrstufige Aufgaben mit einem gewissen Maß an Autonomie auszuführen. Während ein einfacher Assistent lediglich eine Frage beantwortet und es dabei belässt, plant ein Agent, ruft Informationen ab, führt Aufgaben aus, überprüft seine eigenen Ergebnisse und passt sich an, wenn etwas nicht wie erwartet verläuft.
Wenn das LLM das Gehirn ist, MCP das Bindegewebe, das es mit der Welt verbindet, und die Fähigkeiten die erlernten Fertigkeiten, auf die es zurückgreifen kann, dann ist der Agent der Operator, der alles zusammenführt, um tatsächlich etwas zu bewirken.
Hier wird aus dem „KI-Assistenten“ ein „KI-System“. Ein Assistent gibt lediglich Antworten auf der Grundlage seines festgelegten Wissens. Ein Agent hingegen kann Informationen recherchieren und eigenständig handeln.
EBENE 4 – AGENT
Agenten planen, entscheiden und führen aus
Der LLM liefert die Gründe, die MCPs stellen die Verbindungen her, die Fähigkeiten sorgen für die Methode, und der Agent koordiniert all dies, um ein Ergebnis zu erzielen.
Unter der Haube
Die besten Monate für einen Besuch in den Büros sind die folgenden:
7.–11. April New York – São Paulo 22.–24. April Singapur
14.–18. April London – Madrid
Für alle vier Schichten gilt ein Grundsatz: Jede Schicht löst ein anderes Problem. Das LLM sorgt für die logische Verarbeitung. Das MCP sorgt für den Zugriff. Die Skills sorgen für die Methodik. Die Agenten sorgen für die Koordination. Ein System, das in einer Schicht stark, in einer anderen jedoch schwach ist, wird seine Schwachstellen im Produktionsbetrieb schnell offenbaren: beeindruckend in der Demo, unzuverlässig im großen Maßstab.
Wie die großen KI-Forschungslabore diese Schichten umsetzen
Die führenden KI-Forschungslabore haben sich auf bemerkenswert ähnliche Architekturen geeinigt, obwohl sie das Problem von unterschiedlichen Ausgangspunkten aus angegangen sind.
Das deutlichste Zeichen für diese Konvergenz ist MCP selbst. Was als Open-Source-Protokoll von Anthropic begann, wurde inzwischen von allen großen Plattformen übernommen. OpenAI, Google und Microsoft unterstützen MCP, wodurch es zum gemeinsamen Standard für die Anbindung von KI-Systemen an externe Tools und Daten geworden ist. Für Unternehmen, die Integrationen entwickeln, bedeutet dies, dass die Verbindungen, in die sie heute investieren, weitaus seltener an einen einzigen Anbieter gebunden sind.
Über die Verbindungsschicht hinaus gestaltet jedes Labor den Stack auf seine eigene Weise:
- Anthropic hat bei der Einführung von Skills dieselbe Philosophie der „offenen Standards“ angewandt – eine plattformübergreifende Methode, um Methodik und Fachwissen zu kodieren. Claudes Plugins bündeln MCP-Verbindungen und Skills in installierbaren Paketen, sodass einem KI-System in einem einzigen Schritt sowohl Zugriff als auch Know-how bereitgestellt werden können.
- OpenAI hat sein Ökosystem von Anbindungen unter dem Dach von „Apps“ aufgebaut, wodurch ChatGPT Zugriff auf externe Tools und Datenquellen erhält.
- Microsoft hat Copilot Studio zu seiner Plattform für die Entwicklung von Agenten gemacht, mit MCP-basierten Konnektoren und einer neuen „Notebooks“-Funktion für einen dauerhaften Projektkontext.
- Google unterstützt MCP auf allen seinen Entwickler- und Cloud-Plattformen und hat kürzlich „Projects“ eingeführt, um Kontexte und Anweisungen über verschiedene Konversationen hinweg zu speichern.
Die Terminologie unterscheidet sich je nach Plattform, doch die zugrunde liegenden Konzepte entsprechen denselben Ebenen:
DIE SERIE ZUR KI-ARCHITEKTUR – TEIL 2
Wie die großen KI-Forschungslabore die vier Schichten umsetzen
Dieselbe Architektur, vier verschiedene Vokabulare
| Anthropic | OpenAI | Microsoft | ||
|---|---|---|---|---|
| Haupt-GenAI-App | Claude | ChatGPT | Copilot | Zwillinge |
| Persistenter Kontext | Projekte | Projekte | Notizbücher | Projekte |
| Verbindungsschicht | Steckverbinder | Apps | Steckverbinder | Erweiterungen; MCP (nur dev/cloud) |
| Funktionen des Agenten | Claude Cowork | Agentenmodus | Copilot Studio | Gemini-Agent |
Für alle, die KI-gestützte Arbeitsabläufe im Finanzdienstleistungssektor entwickeln, ist diese Konvergenz eine gute Nachricht – doch sie löst nicht die Frage nach der Governance. Wie jede einzelne Plattform mit Datenverbindungen, Methodik und mehrstufiger Koordination umgeht, entscheidet darüber, ob das System, das Sie heute entwickeln, einer genauen Prüfung morgen standhalten wird.
Was kommt als Nächstes: Agenten, die handeln, und Agenten, die zusammenarbeiten
Viele der Tools, die Menschen bereits nutzen , verfügen über Agenten , die im Hintergrund laufen. Wenn ChatGPT in einer einzigen Sitzung Code schreibt, im Internet sucht und eine Antwort zusammenstellt, ist das ein Agent bei der Arbeit. Das Gleiche gilt für Claude, Microsoft Copilot und eine wachsende Zahl von Unternehmensprodukten. Doch derzeit arbeiten diese Agenten noch innerhalb der Grenzen eines Chatfensters und einer Reihe vordefinierter Tool-Verbindungen. Das beginnt sich nun zu ändern.
Die erste Herausforderung sind Agenten, die in Ihrem Namen eine vollständige Computerumgebung bedienen können: surfen, klicken, zwischen Anwendungen wechseln – anstatt sich auf den Chat zu beschränken. Anthropics „Cowork“ und OpenAIs „Agent-Modus“ geben der KI einen eigenen, isolierten Arbeitsbereich, in dem sie Aufgaben mit allen verfügbaren Tools ausführen kann, während Open-Source-Projekte wie „OpenClaw“ einen anderen Ansatz verfolgen und einen KI-Agenten direkt auf Ihrem lokalen Rechner laufen lassen, mit Zugriff auf Ihren Browser, Ihre Dateien und Ihre Messaging-Apps.
Die zweite Herausforderung sind Agenten, die sich untereinander abstimmen. Wenn man heute möchte, dass ein KI-System eine Aufgabe weitergibt – beispielsweise von einem Forschungsagenten an einen Compliance-Prüfungsagenten, der auf einer anderen Plattform basiert –, muss dies manuell eingerichtet werden. Das A2A-Protokoll von Google soll dies ändern und den Agenten eine gemeinsame Sprache für die plattform- und herstellerübergreifende Delegierung von Aufgaben bieten.
Beide Entwicklungsbereiche folgen dem gleichen Muster: mehr Autonomie, breiterer Zugang, höhere Risiken. Ein Agent, der in Ihrem Namen im Internet surfen und Anwendungen bedienen kann, ist weitaus leistungsfähiger als einer, der auf ein Chat-Fenster beschränkt ist – birgt aber auch größere Risiken. Die Branche arbeitet noch daran, diese Systeme so sicher, überprüfbar und kontrollierbar zu gestalten, dass sie für regulierte Umgebungen geeignet sind. Für Teams im Finanzdienstleistungsbereich ist dies ein Bereich, den es genau zu beobachten gilt, an den man sich jedoch mit Vorsicht heranwagen sollte.
In der nächsten Folge dieser Reihe werden wir zeigen, wie diese vier Ebenen in der Praxis bei Arbeitsabläufen im Finanzdienstleistungsbereich aussehen, wobei jede Ebene spezifische, nachvollziehbare Aufgaben übernimmt.
Folgen Sie uns auf LinkedIn oder abonnieren Sie unseren Newsletter, damit Sie nichts verpassen.




