Effizientes Prompting: Wie Caching die Inputkosten um bis zu 90 % senkt

11.12.2025 | 4 Minuten Lesezeit

Das Zauberwort für eine dramatische Kostenreduktion bei LLM Inference lautet: Caching. Ähnlich wie beim Caching anderer Daten in Computersystemen geht es auch hier um das temporäre Zwischenspeichern von oft gebrauchten Informationen. Bei LLMs geht es um das Zwischenspeichern von Matrixmultiplikationen.

LLMs und Caching

Eine detaillierte und theoretisch tiefgehende Erklärung wie genau das Caching bei LLMs funktioniert, würde hier den Rahmen des Artikels sprengen. Daher hier der Versuch einer abstrakten, vereinfachten Erklärung.
Betrachtet man die Funktionsweise von LLMs, so lesen diese den eingegebenen Kontext ein, um daraus folgend das nächste Token zu bestimmen. Dieses neue Token wird dann dafür genutzt, weitere Multiplikationen durchzuführen und zu weiteren neuen Token zu gelangen. Schickt man nun die gleiche Anfrage erneut, wird auch das Ergebnis der Matrixmultiplikation für das erste Token das gleiche sein, aber auch Zwischenschritte davor haben die gleichen Ergebnisse. Dies führt dazu, dass eine strikte Erweiterung des Kontexts immer zu den gleichen Teilergebnissen in den Matrixmultiplikationen führt. In Abbildung 1 wird dies veranschaulicht.

Der selbe Kontext, führt bei der Berechnung immer zu gleichen Zwischenergebnissen. Dies können wir nutzen, um Berechnungsschritte zu sparen.

Bei einem einfachen Chatverlauf baut sich so gezwungenermaßen der Kontext Stück für Stück auf und die einzelnen Teilergebnisse sind immer gleich und so kann das Ergebnis der letzten Berechnung als Ausgangsbasis dafür genutzt werden, neue Tokens schneller zu bestimmen.

Prompt und Context Engineering unter Beachtung von Caching

Zur vereinfachten Visualisierung bietet OpenAI eine sehr schöne Grafik an:

Quelle: https://platform.openai.com/docs/guides/prompt-caching

So ist es nicht entscheidend, wie viel des Kontexts übereinstimmt, die entscheidende Eigenschaft ist, dass das Präfix stimmt. Die Abbildung zeigt, dass beim Cache Miss zwar ein Großteil des Kontexts übereinstimmen kann, aber wenn nur das erste Token unterschiedlich ist, reicht dies, um eine komplett neue Matrixmultiplikation zu erfordern. Beim Cache-Hit ist zwar das Ende des Kontexts ein anderes, der Anfang ist aber gleich, dadurch können die gleichen Zwischenergebnisse genutzt werden. Daraus folgende, ist einer der gravierendsten Fehler beim Prompting, um für ein gutes Logging als erstes in den Kontext einen Timestamp hinzuzufügen.

Schaue ich zurück auf einen meiner letzten Use Cases, bei denen wir LLMs genutzt haben, so war die Aufgabe, Daten aus einem Ausgangsformat in ein Zielformat zu transformieren. Schreibt man dies wörtlich auf, dann ergibt sich abstrakt folgende Grafik:

Ein einfaches Umstrukturieren ermöglicht es, den Kontext länger identisch zu halten. Das Zielformat A hatte in unserem Projekt mehr als 1000 Token, während der Datenpunkt, der sich immer geändert hat, nur 100 Tokens lang war.

Der umstrukturierte Prompt hat die gleichen Informationen beinhaltet und auch die Ergebnisse nicht verändert, wir konnten aber auf die Vorteile von Caching zurückgreifen.

Caching bei den Hyperscalern

Was sind nun diese Vorteile des Caching? Der Titel dieses Artikels legt es nahe: die großen Cloud-Anbieter geben euch (zum Zeitpunkt des Schreibens dieses Artikels) eine Kostenreduktion von bis zu 90 % je nach Anbieter und Modell.
Der infrastrukturelle Aufwand, der hierfür betrieben wird, zeigt auch nochmal deutlich, wie signifikant diese Eigenschaft ist. Denn um davon zu profitieren, müssen die Requests des Nutzers gezielt zu den selben Server-Teilen geroutet werden, da die Ergebnisse der Matrixmultiplikation gefunden werden müssen. Hierfür wird ein Hash des Prefixes gespeichert und beim Routing verwendet. Die Cache-Ergebnisse werden meist im Minutenbereich vorgehalten, die sich bei einem Treffer erneuern.
Betrachtet man nun gewöhnliche Use Cases die heute mit LLMs umgesetzt werden, so wird auch klar, warum sich dieser Aufwand und die Kostenreduktion für die Anbieter lohnt. Bei einer möglichen Kontextlänge von bis zu einer Millionen Token mancher Modelle (zum Vergleich, die gesamte Herr der Ringe Trilogie im Englischen hat etwas mehr als 360.000 Token), werden diese Systeme genutzt, um große Textdateien zu analysieren und darauf zu antworten. Stelle ich nun drei Fragen zu derart großen Dateien, würde, ohne Caching, jedes Mal der gesamte Kontext berechnet werden müssen. Caching umgeht das ganze, da das Ergebnis des gesamten Präfix bereits vorbereitet ist. Eine immense Reduktion von Strom und Zeit. Da kommen wir auch zum zweiten Vorteil. Die Zeit bis zum ersten berechneten Token reduziert sich somit auch signifikant, wodurch schnellere Ergebnisse erzielt werden können.
Zwar zahlt man für Token, die nicht mehr im Cache liegen (also der Teil, der anders ist bei der neuen Anfrage), sowie den Output, weiterhin volle Koste. Wenn aber Use Cases wie weiter oben beschrieben, oder Agentensysteme die ihren Kontext sehr schnell iterativ vergrößern, um komplexe Aufgaben zu lösen, vorliegen, dann ist meist der Input in das LLM der größte Kostentreiber. Unten in den weiterführenden Links sind die passenden Artikel der Hyperscaler aufgelistet, die erklären, wie man Caching auf deren Plattformen am besten nutzen kann. Auch gibt es die Möglichkeit in vLLM, also mit selbstgehosteten Modellen, auf diese Eigenschaft zuzugreifen, um so die eigenen Stromkosten, aber auch Zeitaufwände zu reduzieren.

Schluss

Zusammengefasst lässt sich also sagen, dass ein bewusstes Prompting genutzt werden kann, um Kosten signifikant zu reduzieren. Hierfür muss man manchmal auch intuitive Ideen zum Aufbau eines Prompts neu überdenken, um sicherzustellen, dass die Reihenfolge des Textes möglichst lang identisch bleibt. So lassen sich dann Kosten signifikant reduzieren, aber auch schnellere Ergebnisse erzielen. Das ganze meist auch ohne irgendwelche Effekte auf die Qualität der Antworten.

Weitere Informationen:

Micrsoft Azure: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/prompt-caching
AWS: https://docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html
GoogleCloud: https://cloud.google.com/vertex-ai/generative-ai/docs/context-cache/context-cache-overview
vLLM: https://docs.vllm.ai/en/stable/design/prefix_caching.html

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Daniel Töws

Software Developer

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Starte deinen KI Deep Dive

WORKSHOP

Workshop: AI-Assisted Coding

Enable deine Entwickler*innen für den optimalen Einsatz von KI-Tools. Durch die KI-gestützte Softwareentwicklung kannst du massive Effizienzsteigerung erreichen.klung.

Generative KI
Künstliche Intelligenz
Softwareentwicklung

Foto eines Notebooks, aus dem Daten und Linien zu kommen scheinen

Künstliche Intelligenz

Künstliche Intelligenz (KI) ist nicht nur ein Trend, sondern ein entscheidender Faktor für den Unternehmenserfolg. Nutze das volle Potenzial deiner Daten durch einen strategischen und zielgerichteten KI-Einsatz.

llustration einer Frau und eines Roboters, die an Laptops sitzen und sich anlächeln; im Hintergrund ist eine KI dargestellt

WEBINAR on demand

Mehrwert statt Hype: Wie du generative KI gezielt einsetzt

Erfahre im Webinar, wie du generative KI sinnvoll einsetzt und erfolgreiche Use Cases im Unternehmen realisierst – ganz ohne Hype. Jetzt das Webinar anschauen!

on demand

Generative KI
Künstliche Intelligenz

Daniel Ladischenski

Marc Pudelski

Bugs, Refactoring, Tests: Wo Chatbots beim Coden glänzen und wo sie scheitern

Die Suche nach meinem Platz in der KI-Ära Als Softwareentwickler habe ich mich intensiv mit den neuen KI-Möglichkeiten auseinandergesetzt. Dabei drängte sich mir eine zentrale Frage auf: Wie kann mich KI im Alltag wirklich unterstützen? Oder provokanter...

LLM
Softwareentwicklung
Künstliche Intelligenz

9.3.2026 | 7 Minuten Lesezeit

Lennart Golubski

MCP-Server sicher konfigurieren mit Passwortmanager CLIs

MCP Server sind mittlerweile als Erweiterungen für Coding Agents wie Claude Code oder Cursor zu alltäglichen Tools geworden. Doch bei der Konfiguration der MCP Server gibt es oft ein Sicherheitsrisiko. Viele MCP Server brauchen Credentials, API Tokens...

Künstliche Intelligenz
Softwareentwicklung
LLM
IT-Security

9.3.2026 | 4 Minuten Lesezeit

Paul Severin

KI-Lava im Griff: Der 3-Phasen-Plan für professionelle Softwareentwicklung

KI-Tools in der Softwareentwicklung sind mittlerweile allgegenwärtig. Fast wöchentlich erscheinen neue Werkzeuge, Workflows oder Analysen, welche die Transformation unserer Branche beschreiben. Bei codecentric erleben wir diese Veränderung bereits tä...

Künstliche Intelligenz
Softwareentwicklung
LLM

6.3.2026 | 8 Minuten Lesezeit

Denis Stalz-John

KI-Pflaster statt KI-Strategie

Die erste Welle ist durch. Copilot-Lizenzen sind gekauft, ein CompanyGPT steht, ein paar Meetings werden per KI zusammengefasst. In vielen Chefetagen stellt sich jetzt die richtige Frage: Was hat das eigentlich gebracht? Die Time-to-Market für die eigenen...

Data
Künstliche Intelligenz

6.3.2026 | 9 Minuten Lesezeit

Marcel Mikl

Anatomie eines Claude Code Workflows: Wie aus Slash Commands ein KI-Entwicklungssystem...

Das Tooling rund um KI-getriebene Entwicklungs-Workflows rund um Claude-Code entwickelt sich aktuell mit atemberaubender Geschwindigkeit. Um zu verstehen, wie so ein Tool unter der Haube funktioniert, habe ich mir GSD (Get Shit Done) mal genauer angeschaut...

LLM
Generative KI

3.3.2026 | 11 Minuten Lesezeit

Felix Abele

Kein Schummeln erlaubt: Isolierte Specification Tests mit Claude Code

KI-Agenten sind leistungsfähig — aber sie schummeln, wenn man sie lässt. Wer denselben Agenten entwickeln und testen lässt, riskiert, dass er nicht mehr die Spezifikation erfüllt, sondern nur noch die Tests besteht. Dieser Artikel zeigt, wie man das...

Künstliche Intelligenz
LLM
Testing

2.3.2026 | 11 Minuten Lesezeit

Thomas Jaspers

GenAI jenseits von Anwendungscode – maßgeschneidertes Tooling und Analysen

Wenn von GenAI in der Softwareentwicklung die Rede ist, denken viele zuerst an die Erzeugung von Anwendungscode – und damit an Entwickler:innen als primäre Zielgruppe. Dabei liegt ein großer Mehrwert gerade dort, wo Fachseite und Technik aufeinandertreffen...

Generative KI
Software-Modernisierung
Content Management

26.2.2026 | 18 Minuten Lesezeit

Patrick Krings

KI-Strategie mit Substanz

KI-Strategie mit Substanz Einleitung: Der KI-Hype und das Strategie-Vakuum Lars Rückemann hat in seinem Blogpost zuletzt die Notwendigkeit ganzheitlicher Lösungen betont – doch wie kommen wir methodisch dorthin? Wie finden wir zur eigenen KI-Strategie...

Künstliche Intelligenz
Generative KI
LLM

25.2.2026 | 5 Minuten Lesezeit

Thomas Manthey

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Viele Unternehmen stehen aktuell vor einer beispiellosen Herausforderung. Anstelle von Experimenten in isolierten Pilotprojekten geht es jetzt darum, Kernprozesse grundlegend für KI neu zu denken. Die Art, wie wir Arbeit erledigen, wie wir Teams strukturieren...

Künstliche Intelligenz
Generative KI
Data

20.2.2026 | 2 Minuten Lesezeit

Lars Rückemann

MuleSoft Agent Fabric - Teil 1 - Agenten brauchen Struktur

In den letzten Jahren hat sich in der AI-Welt unglaublich viel getan - was mit an Sicherheit grenzender Wahrscheinlichkeit für niemanden mehr ein Geheimnis ist. Am Anfang habe ich, wie vermutlich die meisten von uns, einfach nur herumexperimentiert:...

LLM
Künstliche Intelligenz
Integration
Software-Modernisierung

17.2.2026 | 5 Minuten Lesezeit

Pasquale Brunelli

Mehr als nur ein Copilot: Die fünf Level der KI-gestützten Softwareentwicklung

KI-gestützte Softwareentwicklung ist nicht gleich KI-gestützte Softwareentwicklung. Die einen nutzen ChatGPT, um sich Code-Schnipsel erklären zu lassen, die anderen lassen KI-Agenten ganze Features bauen. Wieder andere experimentieren mit Tools, die ...

Generative KI

12.2.2026 | 10 Minuten Lesezeit

Goetz Markgraf

Erste Erfahrungen mit einer explorativen, nicht spezifikationsgetriebenen...

Dieser Blogpost ist der erste Teil einer dreiteiligen Serie. In dieser Folge teile ich meine ersten Erfahrungen mit der technischen Modernisierung eines Vaadin-Frontends zu Angular, wobei ich noch keine Spec-driven Development verwende.In mehreren Kundenprojekten...

Software-Modernisierung
Künstliche Intelligenz

6.2.2026 | 10 Minuten Lesezeit

Krisztina Szathmary

Christopher Flocke

Tech Trends 2026 in Deutschland: KI operationalisieren statt hypen

Die wirtschaftliche Lage in Deutschland wird sich dieses Jahr nicht schlagartig verbessern – sie bleibt angespannt, der Kostendruck hoch. Zusätzlich belasten Fachkräftemangel, demografischer Wandel und Fragen der digitalen Souveränität den Markt.Was ...

Künstliche Intelligenz
Generative KI
IT-Security
Softwareentwicklung
Digitalisierung

28.1.2026 | 2 Minuten Lesezeit

Rainer Vehns

5 Minuten reden, ein Proof of Concept - unser KI-Experiment mit AI-Assisted...

TL;DR: Wie viel lässt sich aus einem fünfminütigen Gespräch herausholen? Wir haben es ausprobiert: Mit einem kurzen Interview, einem Transkript und AI-unterstützten Coding nach der BMAD-Methode entstand in kürzester Zeit ein nutzbarer Proof of Concept...

Generative KI
Künstliche Intelligenz
Softwareentwicklung
Digitalisierung
Prozessautomatisierung
Prozessmanagement
Agilität
Agile Methoden
Cloud
Handel
Versicherung
Euro-Cloud
Projektmanagement
Softwarearchitektur
LLM
NLP
Software-Modernisierung
Collaboration
Digitale Produktentwicklung
Mobile
Dokumentation
Framework
Produktmanagement
UX/UI
Dokumentenmanagement
Input-Management
Agile
Fullstack

28.1.2026 | 5 Minuten Lesezeit

Teoman Kinaci

Sven Heinz

5 Gründe, warum wir Entwickler Agentic Software Engineering falsch einsch...

Das ganze Jahr 2025 über tobte eine Art Grabenkrieg zwischen Softwareentwicklern des Pro- und des Anti-KI-Lagers. Wir sind per Definition die Experten für Softwareerstellung. Ironischerweise macht uns genau das aber auch höchst voreingenommen – und ist...

Generative KI
Künstliche Intelligenz

8.1.2026 | 5 Minuten Lesezeit

John Fletcher

Das Developer's-Dilemma: Den Übergang zum AI Engineering meistern

Liebe Softwareentwicklerin, lieber Softwareentwickler, bitte entscheide dich für eine der folgenden Optionen für das Jahr 2026 und darüber hinaus:a) Du stellst fest, dass deine Fähigkeiten veraltet sind, und wirst schließlich arbeitslos. b) Deine Gehaltserhöhungen...

Künstliche Intelligenz
Generative KI

1.1.2026 | 11 Minuten Lesezeit

John Fletcher

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

Dies ist Teil 2 unserer Blog-Serie: 7 Schritte zur wertstiftenden Daten- und KI-Strategie. Den ersten Teil der Blog-Serie könnt ihr hier lesen. Wie können wir die Möglichkeiten von Daten und KI bei uns voll ausschöpfen? Diese Frage hören wir in fast ...

Data
Data Science
Künstliche Intelligenz
Generative KI

10.12.2025 | 5 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

BPMN und Agentic AI: Wie Camunda Ad-hoc-Subprozesse hierzu einsetzt

Die Verschmelzung von Künstlicher Intelligenz (KI) und Prozessautomatisierung erreicht mit der Synergie von Agentic AI eine neue Dimension. Anstatt KI nur als isoliertes Werkzeug in einem Prozessschritt zu betrachten, ermöglicht Agentic AI die Schaffung...

Generative KI
Prozessmanagement
Prozessautomatisierung

5.12.2025 | 7 Minuten Lesezeit

Stephan Köninger

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

Die erwarteten Wertbeiträge von Daten und KI sind groß – McKinsey (2023) schätzt das globale Potenzial auf bis zu 25,6 Billionen US-Dollar. Gleichzeitig berichten viele Unternehmen, mit denen wir sprechen, von ähnlichen Herausforderungen. Und dies best...

Data
Data Science
Datenschutz
Big Data
Generative KI
Künstliche Intelligenz

2.12.2025 | 6 Minuten Lesezeit