Wie funktioniert ein Large Language Model (LLM)?

21. Januar 2026
·
Austen Englisch

Wie funktioniert ein Large Language Model (LLM)?

Der verständliche Blick ins Innere von LLMs

LLM einfach erklärt: Ein Large Language Model (LLM) verarbeitet Text als Tokens, bildet daraus Bedeutungsvektoren, rechnet im Transformer Kontextbezüge über Self Attention aus und erzeugt anschließend Token für Token eine Antwort. Was simpel klingt, ist in der Praxis ein präziser Ablauf aus Datenrepräsentation, Wahrscheinlichkeitsrechnung und Steuermechanismen wie Decoding und Alignment.

Wenn du nicht nur verstehen willst, wie LLMs Antworten erzeugen, sondern auch, wieso deine Website in Antworten von künstlicher Intelligenz (KI) auftaucht, findest du weiter in unserem Artikel über Generative Engine Optimization.

LLM Definition

Das Wichtigste in 60 Sekunden

• LLMs sind Sprachmodelle, die Tokens vorhersagen. Sie berechnen Wahrscheinlichkeiten für den nächsten Token und wiederholen das, bis eine Antwort entsteht.
• Die bekanntesten LLMs sind ChatGPT, Google Gemini, die KI-Suchmaschine Perplexity, oder auch Claude Code.
• Transformer sind die dominante Architektur. Self Attention macht es möglich, relevante Textstellen im Kontext zu gewichten.
• Training hat Phasen. Pretraining lernt Sprachmuster, Instruction Tuning und Verfahren, wie RLHF machen das Modell hilfreicher und stärker auf Nutzerintention ausgerichtet

🛠️ Interaktiv ausprobieren
Lerne die Konzepte hands-on mit unseren Mini-Tools:
→ Tokenisierung testen | → Attention verstehen | → Vorhersage simulieren

Was ist ein Large Language Model genau?

Was ist ein LLM?: Ein Large Language Model ist ein statistisches Modell, das auf sehr großen Textmengen trainiert wird, um die Wortfolgen als Token Sequenzen zu modellieren. LLMs können außerdem, statt feste Regeln zu verwenden, Muster lernen darüber, welche Tokens in welchem Kontext wahrscheinlich folgen.

Wichtige Begriffe, die du im Hinterkopf behalten solltest

Tokens: Einheiten, in die Text zerlegt wird. Das können ganze Wörter, Wortteile oder einzelne Zeichen sein.
Parameter: Die internen Zahlenwerte, die das Modell beim Training anpasst. Viele Parameter erlauben komplexe Muster, sind aber nicht automatisch gleichbedeutend mit Qualität.
Kontextfenster: Die Menge an Tokens, die das LLM in einer Anfrage gleichzeitig berücksichtigen kann. Je größer das Fenster, desto mehr Kontext ist in einer Antwort nutzbar.

Baustein 1: Tokenisierung, wie Text zu Modell Input wird

Bevor ein LLM rechnen kann, muss es Text in Tokens umwandeln. In der Praxis kommen häufig Subword Verfahren zum Einsatz. Sie zerlegen die Wörter in wiederverwendbare Einheiten, damit das Modell auch seltene oder neue Wörter darstellen kann.

Warum Subword Tokenisierung so wichtig ist

Offenes Vokabular: Neue Begriffe, Namen oder Komposita können aus bekannten Teilen zusammengesetzt werden.
Robust bei Spracheffekten: Tippfehler, Beugungen und Wortzusammensetzungen sind besser handhabbar als mit reinem Wort Vokabular.

Abbildung: Tokenisierung eines deutschen Kompositums, farblich in Subwords markiert, daneben eine zweite Spalte mit Token IDs.

Hinweis: In vielen Tokenizern wird eine Variante von Byte Pair Encoding eingesetzt, die historisch aus der Datenkompression kommt und später für NLP Tokenizer adaptiert wurde.

🛠️ Interaktiv ausprobieren:

🧩 LLM Tokenisierung

So zerlegt ein LLM deinen Text in verarbeitbare Einheiten

📝 Text eingeben

Beispiel 1 Beispiel 2 Beispiel 3

🔤 Tokens (Subword-Einheiten)

Tokens

Zeichen

Zeichen/Token

💡 Was passiert hier?

LLMs verstehen keinen Text direkt. Sie zerlegen ihn in "Tokens" – Wortteile oder ganze Wörter. Das deutsche Wort "Wärmepumpe" wird z.B. zu ["Wärme", "pumpe"]. Längere Texte = mehr Tokens = mehr Rechenaufwand. Bei ChatGPT kostet jeder Token Geld – deshalb ist effiziente Formulierung wichtig!

Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Attention verstehen | → Vorhersage simulieren

Baustein 2: Embeddings, wie Bedeutung als Zahlenraum entsteht

Tokens sind zunächst nur IDs. Damit das LLM sinnvoll rechnen kann, werden Tokens in Vektoren umgewandelt, sogenannte Embeddings. Man kann sich das als Koordinaten in einem hochdimensionalen Raum vorstellen.

Zwei Kernideen

Ähnlichkeit: Tokens, die in ähnlichen Kontexten vorkommen, liegen im Embedding Raum oft näher beieinander.
Kontextualität: Moderne Transformer erzeugen Bedeutung nicht nur aus dem Token selbst, sondern aus dem Kontext, in dem es steht.

Baustein 3: Der Transformer, das Herz moderner LLMs

Der Transformer ist die Architektur, die den Durchbruch für viele moderne Large Language Models (LLMs) ermöglicht hat. Die zentrale Innovation ist Self Attention: Das Modell lernt, welche Textteile für die Interpretation eines Tokens besonders relevant sind.

Self Attention verständlich erklärt

Statt Text rein sequenziell zu verarbeiten, berechnet Self Attention für jedes Token eine gewichtete Sicht auf andere Tokens im Kontext. Vereinfacht läuft das so das Jedes Token Repräsentationen erzeugt, die man oft als Query, Key und Value bezeichnet.
Das Modell berechnet, wie gut Query zu den Keys anderer Tokens passt. Daraus entstehen Gewichte, die bestimmen, welche Values stärker in die aktuelle Repräsentation einfließen.
Das Ergebnis ist, dass das LLM bei der Bedeutung eines Tokens relevante Stellen im Satz oder Absatz stärker berücksichtigt.

Multi Head Attention

Ein einzelner Attention Mechanismus wäre zu grob. Multi Head Attention erlaubt mehrere parallele „Sichten“ auf denselben Kontext, etwa eine Sicht auf Syntax, eine auf Semantik, eine auf Referenzen.

Positionsinformation

Da Self Attention allein keine Reihenfolge kennt, wird Positionsinformation ergänzt, damit das Modell Satzstruktur und Reihenfolge korrekt nutzt.

🛠️ Interaktiv ausprobieren:

🔍 Self-Attention Mechanismus

So versteht ein LLM Zusammenhänge im Text

👆 Klicke auf ein Wort, um zu sehen, auf welche anderen Wörter es "achtet"

Erklärung

Wähle ein Wort aus, um zu sehen, wie Self-Attention funktioniert.

Ausgewähltes Wort

Attention-Ziel

💡 Was ist Self-Attention?

Bei "Die Katze sitzt auf der Matte, sie schnurrt" muss das LLM verstehen, dass "sie" sich auf "Katze" bezieht – nicht auf "Matte". Self-Attention berechnet für jedes Wort, welche anderen Wörter im Kontext wichtig sind. Das ermöglicht Verständnis über den ganzen Satz hinweg und ist der Kern der Transformer-Architektur.

Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Tokenisierung testen | → Vorhersage simulieren

Wie ein Large Language Moddel Antworten erzeugt: Inferenz Schritt für Schritt

Wenn du eine Frage stellst, passiert im Kern Folgendes

Prompt wird tokenisiert
Transformer berechnet Verteilungen über mögliche nächste Tokens
Decoding wählt Tokens aus und hängt sie an
Das wiederholt sich, bis die Antwort fertig ist

Entscheidend ist Schritt 3. Denn das Modell liefert keine einzelne Wahrheit, sondern Wahrscheinlichkeiten. Die Umwandlung in Text passiert über Decoding Strategien.

Typische Decoding Steuergrößen

Greedy: Nimmt immer den wahrscheinlichsten Token
Sampling: Wählt probabilistisch, dadurch variabler
Temperature: Steuert, wie stark Wahrscheinlichkeiten geglättet werden, höhere Werte liefern kreativere, aber riskantere Antworten

Warum Halluzinationen entstehen

Ein LLM optimiert auf Plausibilität im Sprachraum, nicht auf Wahrheitssicherung. Wenn Kontext, Datenlage oder Prompt unklar sind, kann das Modell sehr überzeugend formulieren, obwohl die Aussage faktisch falsch ist. Genau deshalb gewinnen Inhalte mit klaren Definitionen, Zahlen, Quellen und eindeutigen Strukturmerkmalen in KI Antworten deutlich häufiger.

🛠️ Interaktiv ausprobieren:

🎯 Token-Vorhersage

So generiert ein LLM Wort für Wort seine Antwort

Das LLM vervollständigt:

„Die beste SEO-Strategie ist ?"

👆 Klicke auf ein Wort – welches würde das LLM wählen?

„eine" 35%

„Content" 28%

„die" 22%

„guter" 15%

💡 Warum dieses Wort?

⚙️ Der Generierungsprozess

Tokenisierung: Text wird in Tokens zerlegt

Embeddings: Tokens werden zu Zahlenvektoren

Transformer: Self-Attention analysiert Kontext

Vorhersage: Wahrscheinlichkeiten für nächstes Token

↻

Wiederholen bis die Antwort vollständig ist

💡 Warum „halluzinieren" LLMs manchmal?

Ein LLM optimiert auf Plausibilität, nicht auf Wahrheit. Es wählt das wahrscheinlichste nächste Wort basierend auf Mustern – nicht basierend auf Fakten. Deshalb sind klare, faktische Quellen auf deiner Website so wichtig: Sie geben dem LLM verlässliche Informationen zum Zitieren.

Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Tokenisierung testen | → Attention verstehen

Wie ein LLM lernt: Training Pipeline von Rohdaten bis Chat Modell

Die grobe Pipeline moderner LLMs lässt sich in drei Stufen erklären

1. Pretraining

Das LLM lernt auf großen Textmengen, Tokens vorherzusagen. Es baut dabei ein breites Sprach und Wissensmuster auf.

2. Instruction Tuning

Dann wird es auf Aufgabenformate und Instruktionen angepasst, damit es besser auf Nutzerintention reagiert.

3. Alignment durch menschliches Feedback, oft RLHF

RLFH Erklärung: Ein verbreiteter Ansatz ist die RLHF. Dabei werden die Modellantworten von Menschen bewertet und das Modell wird so weiter optimiert, so dass es hilfreicher und weniger problematisch antwortet. Eine bekannte Referenz ist das InstructGPT Paper.

Ergänzend gibt es Konzepte wie Constitutional AI, bei denen Regeln und Prinzipien stärker in den Prozess eingebaut werden.

Quelle: https://arxiv.org/abs/2203.02155

Warum Skalierung wirkt, aber nicht grenzenlos

Es gibt robuste empirische Befunde, dass Modellleistung häufig mit Modellgröße, Datenmenge und Rechenaufwand in vorhersehbaren Zusammenhängen steigt. Diese Beobachtung wird oft als Scaling Laws diskutiert.

Ein wichtiges Update dazu liefert die Chinchilla Arbeit: Viele Modelle waren historisch eher unter trainiert, weil sie relativ gesehen zu wenig Tokens gesehen haben. Compute-Optimale Training verlangt ein ausgewogeneres Verhältnis zwischen Modellgröße und Datenmenge.

Grenzen und Risiken: Was ein LLM nicht kann

Ein LLM kann halluzinieren. Das bedeutet, dass es Antworten gibt, die nicht der Wahrheit entsprechen. Dieser Vorgang ist bekannt und hat seinen Ursprung darin, dass LLMs darauf ausgelegt sind, dem Nutzer in jedem Fall einen Mehrwert zu bieten. Das führt dazu, dass ein LLM, wenn es etwas nicht weiß, einfach eine Antwort, eine Quelle oder Fakten erfindet, die nicht stimmen.

Zudem ist es enorm wichtig, wie genau ein Prompt formuliert wurde. Die Antwort eines LLM hängt stark davon ab, was es bereits über den Nutzer weiß, wie der bisherige Gesprächsverlauf war und was genau die Zielsetzung eines Prompts ist. Eine einfache Frage wird einfach beantwortet. Enthält die Frage allerdings auch eine Zielsetzung und berücksichtigt, was der Fragesteller erwartet, wird das Ergebnis besser.

Eine weitere Gefahr besteht darin, dass durch Prompt Injection Sicherheitsrisiken entstehen können. So können Angreifer gezielt Inhalte manipulieren, um etwa Sicherheitslücken auszunutzen. So etwas ist bereits bei Code auf GitHub passiert. Ein Hacker hat schadhaften Code hochgeladen, der von den Crawlern der LLMs kopiert und bei bestimmten Programmieraufforderungen der Nutzer implementiert wurde. Dadurch hat der Hacker Zugriff auf das System erhalten.

Für Unternehmen ist das: Die Nutzung von LLMs erfordert saubere Datenquellen, klare Prozesse und Inhalte, die sich gut referenzieren lassen.

Was das für SEO und GEO bedeutet: So werden Inhalte LLM relevant

Klassische SEO optimiert in erster Linie für Ranking Signale und Suchintention in Suchmaschinen. Bei der Generative Engine Optimization kommt eine zusätzliche Ebene dazu: Inhalte müssen so strukturiert sein, dass sie in KI Antworten als verlässliche, zitierfähige Quelle dienen.

Was in der Praxis besonders gut funktioniert

Definitionen früh im Text und klar in einem Satz formuliert
Schrittfolgen und Checklisten mit eindeutigen Begriffen
Zahlen und Behauptungen nur mit Quelle oder als klare Einschätzung markieren
FAQ und Glossar, weil KI Systeme daraus präzise Antwortbausteine ziehen können
Gute interne Verlinkung, damit Themencluster erkennbar sind

Wenn du das konsequent umsetzt, erhöhst du die Chance, dass deine Inhalte nicht nur gefunden, sondern auch in generativen Antworten verwendet werden.

Weiterführend: Wenn du deine Website gezielt für Sichtbarkeit in KI Antworten optimieren willst, findest du unseren Ansatz hier

Kostenlose GEO-Analyse

Wie sichtbar ist deine Website in ChatGPT & Co.?

Finde es in 60 Sekunden heraus, kostenlos & unverbindlich.

Website URL *

Keyword *

Deine E-Mail *

Ich stimme der Datenverarbeitung zu. Es werden ausschließlich die URL und das Keyword zur KI-gestützten Analyse an OpenAI (USA) übermittelt – keine personenbezogenen Daten. Datenschutzerklärung

Ich bin damit einverstanden, dass mich Marktgetrieben kontaktieren darf. (Widerruf jederzeit möglich)

✓ Ergebnis innerhalb einer Minute direkt hier

Hier sammeln wir Einordnungen, Beobachtungen und Erfahrungen aus der täglichen Arbeit mit KI Sichtbarkeit, GEO und modernem Marketing.

Kein Blog, sondern Wissen, das einordnet, statt nur zu informieren.

Über den Autor

Austen Englisch

Strategie, GEO, SEO, Webdesign

Entwicklung und Umsetzung digitaler Strategien mit Fokus auf Struktur, Prozesse und nachhaltige Sichtbarkeit.

Insights im Überblick

Taucht dein Unternehmen bereits in KI-Antworten auf?

Wir prüfen, wie KI-Systeme deine Website heute einordnen und ob GEO-Optimierung für dich sinnvoll ist.

Projekt anfragen

Insights im Überblick

Wie funktioniert ein Large Language Model (LLM)?