Wie funktioniert ein Large Language Model (LLM)?

wie-funktionieren-llms

Wie funktioniert ein Large Language Model (LLM)?

Der verständliche Blick ins Innere von LLMs

LLM einfach erklärt: Ein Large Language Model (LLM) verarbeitet Text als Tokens, bildet daraus Bedeutungsvektoren, rechnet im Transformer Kontextbezüge über Self Attention aus und erzeugt anschließend Token für Token eine Antwort. Was simpel klingt, ist in der Praxis ein präziser Ablauf aus Datenrepräsentation, Wahrscheinlichkeitsrechnung und Steuermechanismen wie Decoding und Alignment.

Wenn du nicht nur verstehen willst, wie LLMs Antworten erzeugen, sondern auch, wieso deine Website in Antworten von künstlicher Intelligenz (KI) auftaucht, findest du weiter in unserem Artikel über Generative Engine Optimization.

LLM Definition

Das Wichtigste in 60 Sekunden

• LLMs sind Sprachmodelle, die Tokens vorhersagen. Sie berechnen Wahrscheinlichkeiten für den nächsten Token und wiederholen das, bis eine Antwort entsteht.
• Die bekanntesten LLMs sind ChatGPT, Google Gemini, die KI-Suchmaschine Perplexity, oder auch Claude Code.
• Transformer sind die dominante Architektur. Self Attention macht es möglich, relevante Textstellen im Kontext zu gewichten.
• Training hat Phasen. Pretraining lernt Sprachmuster, Instruction Tuning und Verfahren, wie RLHF machen das Modell hilfreicher und stärker auf Nutzerintention ausgerichtet

🛠️ Interaktiv ausprobieren
Lerne die Konzepte hands-on mit unseren Mini-Tools:
→ Tokenisierung testen | → Attention verstehen | → Vorhersage simulieren

Was ist ein Large Language Model genau?

Was ist ein LLM?: Ein Large Language Model ist ein statistisches Modell, das auf sehr großen Textmengen trainiert wird, um die Wortfolgen als Token Sequenzen zu modellieren. LLMs können außerdem, statt feste Regeln zu verwenden, Muster lernen darüber, welche Tokens in welchem Kontext wahrscheinlich folgen.

Wichtige Begriffe, die du im Hinterkopf behalten solltest

  • Tokens: Einheiten, in die Text zerlegt wird. Das können ganze Wörter, Wortteile oder einzelne Zeichen sein.
  • Parameter: Die internen Zahlenwerte, die das Modell beim Training anpasst. Viele Parameter erlauben komplexe Muster, sind aber nicht automatisch gleichbedeutend mit Qualität.
  • Kontextfenster: Die Menge an Tokens, die das LLM in einer Anfrage gleichzeitig berücksichtigen kann. Je größer das Fenster, desto mehr Kontext ist in einer Antwort nutzbar.

Baustein 1: Tokenisierung, wie Text zu Modell Input wird

Bevor ein LLM rechnen kann, muss es Text in Tokens umwandeln. In der Praxis kommen häufig Subword Verfahren zum Einsatz. Sie zerlegen die Wörter in wiederverwendbare Einheiten, damit das Modell auch seltene oder neue Wörter darstellen kann.

Warum Subword Tokenisierung so wichtig ist

  • Offenes Vokabular: Neue Begriffe, Namen oder Komposita können aus bekannten Teilen zusammengesetzt werden.
  • Robust bei Spracheffekten: Tippfehler, Beugungen und Wortzusammensetzungen sind besser handhabbar als mit reinem Wort Vokabular.

Abbildung: Tokenisierung eines deutschen Kompositums, farblich in Subwords markiert, daneben eine zweite Spalte mit Token IDs.

Hinweis: In vielen Tokenizern wird eine Variante von Byte Pair Encoding eingesetzt, die historisch aus der Datenkompression kommt und später für NLP Tokenizer adaptiert wurde.

🛠️ Interaktiv ausprobieren:

🧩 LLM Tokenisierung

So zerlegt ein LLM deinen Text in verarbeitbare Einheiten

📝 Text eingeben
Beispiel 1 Beispiel 2 Beispiel 3
🔤 Tokens (Subword-Einheiten)
0
Tokens
0
Zeichen
0
Zeichen/Token
💡 Was passiert hier?
LLMs verstehen keinen Text direkt. Sie zerlegen ihn in "Tokens" – Wortteile oder ganze Wörter. Das deutsche Wort "Wärmepumpe" wird z.B. zu ["Wärme", "pumpe"]. Längere Texte = mehr Tokens = mehr Rechenaufwand. Bei ChatGPT kostet jeder Token Geld – deshalb ist effiziente Formulierung wichtig!
Verstehe, wie LLMs deinen Content verarbeiten
Jetzt GEO-Analyse starten →

Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Attention verstehen | → Vorhersage simulieren

Baustein 2: Embeddings, wie Bedeutung als Zahlenraum entsteht

Tokens sind zunächst nur IDs. Damit das LLM sinnvoll rechnen kann, werden Tokens in Vektoren umgewandelt, sogenannte Embeddings. Man kann sich das als Koordinaten in einem hochdimensionalen Raum vorstellen.

Zwei Kernideen

  • Ähnlichkeit: Tokens, die in ähnlichen Kontexten vorkommen, liegen im Embedding Raum oft näher beieinander.
  • Kontextualität: Moderne Transformer erzeugen Bedeutung nicht nur aus dem Token selbst, sondern aus dem Kontext, in dem es steht.

Baustein 3: Der Transformer, das Herz moderner LLMs

Der Transformer ist die Architektur, die den Durchbruch für viele moderne Large Language Models (LLMs) ermöglicht hat. Die zentrale Innovation ist Self Attention: Das Modell lernt, welche Textteile für die Interpretation eines Tokens besonders relevant sind.

Self Attention verständlich erklärt

Statt Text rein sequenziell zu verarbeiten, berechnet Self Attention für jedes Token eine gewichtete Sicht auf andere Tokens im Kontext. Vereinfacht läuft das so das Jedes Token Repräsentationen erzeugt, die man oft als Query, Key und Value bezeichnet.
Das Modell berechnet, wie gut Query zu den Keys anderer Tokens passt. Daraus entstehen Gewichte, die bestimmen, welche Values stärker in die aktuelle Repräsentation einfließen.
Das Ergebnis ist, dass das LLM bei der Bedeutung eines Tokens relevante Stellen im Satz oder Absatz stärker berücksichtigt.

Multi Head Attention

Ein einzelner Attention Mechanismus wäre zu grob. Multi Head Attention erlaubt mehrere parallele „Sichten“ auf denselben Kontext, etwa eine Sicht auf Syntax, eine auf Semantik, eine auf Referenzen.

Positionsinformation

Da Self Attention allein keine Reihenfolge kennt, wird Positionsinformation ergänzt, damit das Modell Satzstruktur und Reihenfolge korrekt nutzt.

🛠️ Interaktiv ausprobieren:

🔍 Self-Attention Mechanismus

So versteht ein LLM Zusammenhänge im Text

👆 Klicke auf ein Wort, um zu sehen, auf welche anderen Wörter es "achtet"
Erklärung
Wähle ein Wort aus, um zu sehen, wie Self-Attention funktioniert.
Ausgewähltes Wort
Attention-Ziel
💡 Was ist Self-Attention?
Bei "Die Katze sitzt auf der Matte, sie schnurrt" muss das LLM verstehen, dass "sie" sich auf "Katze" bezieht – nicht auf "Matte". Self-Attention berechnet für jedes Wort, welche anderen Wörter im Kontext wichtig sind. Das ermöglicht Verständnis über den ganzen Satz hinweg und ist der Kern der Transformer-Architektur.
Ist dein Content so strukturiert, dass LLMs ihn verstehen?
Jetzt GEO-Analyse starten →

Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Tokenisierung testen | → Vorhersage simulieren

Wie ein Large Language Moddel Antworten erzeugt: Inferenz Schritt für Schritt

Wenn du eine Frage stellst, passiert im Kern Folgendes

  1. Prompt wird tokenisiert
  2. Transformer berechnet Verteilungen über mögliche nächste Tokens
  3. Decoding wählt Tokens aus und hängt sie an
  4. Das wiederholt sich, bis die Antwort fertig ist

Entscheidend ist Schritt 3. Denn das Modell liefert keine einzelne Wahrheit, sondern Wahrscheinlichkeiten. Die Umwandlung in Text passiert über Decoding Strategien.

Typische Decoding Steuergrößen

  • Greedy: Nimmt immer den wahrscheinlichsten Token
  • Sampling: Wählt probabilistisch, dadurch variabler
  • Temperature: Steuert, wie stark Wahrscheinlichkeiten geglättet werden, höhere Werte liefern kreativere, aber riskantere Antworten

Warum Halluzinationen entstehen

Ein LLM optimiert auf Plausibilität im Sprachraum, nicht auf Wahrheitssicherung. Wenn Kontext, Datenlage oder Prompt unklar sind, kann das Modell sehr überzeugend formulieren, obwohl die Aussage faktisch falsch ist. Genau deshalb gewinnen Inhalte mit klaren Definitionen, Zahlen, Quellen und eindeutigen Strukturmerkmalen in KI Antworten deutlich häufiger.

🛠️ Interaktiv ausprobieren:

🎯 Token-Vorhersage

So generiert ein LLM Wort für Wort seine Antwort

Das LLM vervollständigt:
„Die beste SEO-Strategie ist ?"
👆 Klicke auf ein Wort – welches würde das LLM wählen?
„eine" 35%
„Content" 28%
„die" 22%
„guter" 15%
💡 Warum dieses Wort?
⚙️ Der Generierungsprozess
1
Tokenisierung: Text wird in Tokens zerlegt
2
Embeddings: Tokens werden zu Zahlenvektoren
3
Transformer: Self-Attention analysiert Kontext
4
Vorhersage: Wahrscheinlichkeiten für nächstes Token
Wiederholen bis die Antwort vollständig ist
💡 Warum „halluzinieren" LLMs manchmal?
Ein LLM optimiert auf Plausibilität, nicht auf Wahrheit. Es wählt das wahrscheinlichste nächste Wort basierend auf Mustern – nicht basierend auf Fakten. Deshalb sind klare, faktische Quellen auf deiner Website so wichtig: Sie geben dem LLM verlässliche Informationen zum Zitieren.

Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Tokenisierung testen | → Attention verstehen

Wie ein LLM lernt: Training Pipeline von Rohdaten bis Chat Modell

Die grobe Pipeline moderner LLMs lässt sich in drei Stufen erklären

1. Pretraining

Das LLM lernt auf großen Textmengen, Tokens vorherzusagen. Es baut dabei ein breites Sprach und Wissensmuster auf.

2. Instruction Tuning

Dann wird es auf Aufgabenformate und Instruktionen angepasst, damit es besser auf Nutzerintention reagiert.

3. Alignment durch menschliches Feedback, oft RLHF

RLFH Erklärung: Ein verbreiteter Ansatz ist die RLHF. Dabei werden die Modellantworten von Menschen bewertet und das Modell wird so weiter optimiert, so dass es hilfreicher und weniger problematisch antwortet. Eine bekannte Referenz ist das InstructGPT Paper.

Ergänzend gibt es Konzepte wie Constitutional AI, bei denen Regeln und Prinzipien stärker in den Prozess eingebaut werden.

Quelle: https://arxiv.org/abs/2203.02155

Warum Skalierung wirkt, aber nicht grenzenlos

Es gibt robuste empirische Befunde, dass Modellleistung häufig mit Modellgröße, Datenmenge und Rechenaufwand in vorhersehbaren Zusammenhängen steigt. Diese Beobachtung wird oft als Scaling Laws diskutiert.

Ein wichtiges Update dazu liefert die Chinchilla Arbeit: Viele Modelle waren historisch eher unter trainiert, weil sie relativ gesehen zu wenig Tokens gesehen haben. Compute-Optimale Training verlangt ein ausgewogeneres Verhältnis zwischen Modellgröße und Datenmenge.

Grenzen und Risiken: Was ein LLM nicht kann

Ein LLM kann halluzinieren. Das bedeutet, dass es Antworten gibt, die nicht der Wahrheit entsprechen. Dieser Vorgang ist bekannt und hat seinen Ursprung darin, dass LLMs darauf ausgelegt sind, dem Nutzer in jedem Fall einen Mehrwert zu bieten. Das führt dazu, dass ein LLM, wenn es etwas nicht weiß, einfach eine Antwort, eine Quelle oder Fakten erfindet, die nicht stimmen.

Zudem ist es enorm wichtig, wie genau ein Prompt formuliert wurde. Die Antwort eines LLM hängt stark davon ab, was es bereits über den Nutzer weiß, wie der bisherige Gesprächsverlauf war und was genau die Zielsetzung eines Prompts ist. Eine einfache Frage wird einfach beantwortet. Enthält die Frage allerdings auch eine Zielsetzung und berücksichtigt, was der Fragesteller erwartet, wird das Ergebnis besser.

Eine weitere Gefahr besteht darin, dass durch Prompt Injection Sicherheitsrisiken entstehen können. So können Angreifer gezielt Inhalte manipulieren, um etwa Sicherheitslücken auszunutzen. So etwas ist bereits bei Code auf GitHub passiert. Ein Hacker hat schadhaften Code hochgeladen, der von den Crawlern der LLMs kopiert und bei bestimmten Programmieraufforderungen der Nutzer implementiert wurde. Dadurch hat der Hacker Zugriff auf das System erhalten.

Für Unternehmen ist das: Die Nutzung von LLMs erfordert saubere Datenquellen, klare Prozesse und Inhalte, die sich gut referenzieren lassen.

Was das für SEO und GEO bedeutet: So werden Inhalte LLM relevant

Klassische SEO optimiert in erster Linie für Ranking Signale und Suchintention in Suchmaschinen. Bei der Generative Engine Optimization kommt eine zusätzliche Ebene dazu: Inhalte müssen so strukturiert sein, dass sie in KI Antworten als verlässliche, zitierfähige Quelle dienen.

Was in der Praxis besonders gut funktioniert

  • Definitionen früh im Text und klar in einem Satz formuliert
  • Schrittfolgen und Checklisten mit eindeutigen Begriffen
  • Zahlen und Behauptungen nur mit Quelle oder als klare Einschätzung markieren
  • FAQ und Glossar, weil KI Systeme daraus präzise Antwortbausteine ziehen können
  • Gute interne Verlinkung, damit Themencluster erkennbar sind

Wenn du das konsequent umsetzt, erhöhst du die Chance, dass deine Inhalte nicht nur gefunden, sondern auch in generativen Antworten verwendet werden.

Weiterführend: Wenn du deine Website gezielt für Sichtbarkeit in KI Antworten optimieren willst, findest du unseren Ansatz hier

Strategie Icon

Wie sichtbar ist deine Website in ChatGPT & Co.?

Finde es in 60 Sekunden heraus, kostenlos & unverbindlich.

Hinweis: Ihre eingegebenen Daten (URL und Keyword) werden zur Analyse an OpenAI (USA) übermittelt. Mit der Nutzung stimmen Sie der Datenverarbeitung gemäß unserer Datenschutzerklärung zu.

✓ Ergebnis innerhalb einer Minute direkt hier

Hier sammeln wir Einordnungen, Beobachtungen und Erfahrungen aus der täglichen Arbeit mit KI Sichtbarkeit, GEO und modernem Marketing.

Kein Blog, sondern Wissen, das einordnet, statt nur zu informieren.

Inhaltsverzeichnis

Schlagwörter

Insights im Überblick