Wie funktioniert ein Large Language Model (LLM)?
Der verständliche Blick ins Innere von LLMs
LLM einfach erklärt: Ein Large Language Model (LLM) verarbeitet Text als Tokens, bildet daraus Bedeutungsvektoren, rechnet im Transformer Kontextbezüge über Self Attention aus und erzeugt anschließend Token für Token eine Antwort. Was simpel klingt, ist in der Praxis ein präziser Ablauf aus Datenrepräsentation, Wahrscheinlichkeitsrechnung und Steuermechanismen wie Decoding und Alignment.
Wenn du nicht nur verstehen willst, wie LLMs Antworten erzeugen, sondern auch, wieso deine Website in Antworten von künstlicher Intelligenz (KI) auftaucht, findest du weiter in unserem Artikel über Generative Engine Optimization.
LLM Definition
Das Wichtigste in 60 Sekunden
• LLMs sind Sprachmodelle, die Tokens vorhersagen. Sie berechnen Wahrscheinlichkeiten für den nächsten Token und wiederholen das, bis eine Antwort entsteht.
• Die bekanntesten LLMs sind ChatGPT, Google Gemini, die KI-Suchmaschine Perplexity, oder auch Claude Code.
• Transformer sind die dominante Architektur. Self Attention macht es möglich, relevante Textstellen im Kontext zu gewichten.
• Training hat Phasen. Pretraining lernt Sprachmuster, Instruction Tuning und Verfahren, wie RLHF machen das Modell hilfreicher und stärker auf Nutzerintention ausgerichtet
🛠️ Interaktiv ausprobieren
Lerne die Konzepte hands-on mit unseren Mini-Tools:
→ Tokenisierung testen | → Attention verstehen | → Vorhersage simulieren
Was ist ein Large Language Model genau?
Was ist ein LLM?: Ein Large Language Model ist ein statistisches Modell, das auf sehr großen Textmengen trainiert wird, um die Wortfolgen als Token Sequenzen zu modellieren. LLMs können außerdem, statt feste Regeln zu verwenden, Muster lernen darüber, welche Tokens in welchem Kontext wahrscheinlich folgen.
Wichtige Begriffe, die du im Hinterkopf behalten solltest
- Tokens: Einheiten, in die Text zerlegt wird. Das können ganze Wörter, Wortteile oder einzelne Zeichen sein.
- Parameter: Die internen Zahlenwerte, die das Modell beim Training anpasst. Viele Parameter erlauben komplexe Muster, sind aber nicht automatisch gleichbedeutend mit Qualität.
- Kontextfenster: Die Menge an Tokens, die das LLM in einer Anfrage gleichzeitig berücksichtigen kann. Je größer das Fenster, desto mehr Kontext ist in einer Antwort nutzbar.
Baustein 1: Tokenisierung, wie Text zu Modell Input wird
Bevor ein LLM rechnen kann, muss es Text in Tokens umwandeln. In der Praxis kommen häufig Subword Verfahren zum Einsatz. Sie zerlegen die Wörter in wiederverwendbare Einheiten, damit das Modell auch seltene oder neue Wörter darstellen kann.
Warum Subword Tokenisierung so wichtig ist
- Offenes Vokabular: Neue Begriffe, Namen oder Komposita können aus bekannten Teilen zusammengesetzt werden.
- Robust bei Spracheffekten: Tippfehler, Beugungen und Wortzusammensetzungen sind besser handhabbar als mit reinem Wort Vokabular.
Abbildung: Tokenisierung eines deutschen Kompositums, farblich in Subwords markiert, daneben eine zweite Spalte mit Token IDs.
Hinweis: In vielen Tokenizern wird eine Variante von Byte Pair Encoding eingesetzt, die historisch aus der Datenkompression kommt und später für NLP Tokenizer adaptiert wurde.
🛠️ Interaktiv ausprobieren:
Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Attention verstehen | → Vorhersage simulieren
Baustein 2: Embeddings, wie Bedeutung als Zahlenraum entsteht
Tokens sind zunächst nur IDs. Damit das LLM sinnvoll rechnen kann, werden Tokens in Vektoren umgewandelt, sogenannte Embeddings. Man kann sich das als Koordinaten in einem hochdimensionalen Raum vorstellen.
Zwei Kernideen
- Ähnlichkeit: Tokens, die in ähnlichen Kontexten vorkommen, liegen im Embedding Raum oft näher beieinander.
- Kontextualität: Moderne Transformer erzeugen Bedeutung nicht nur aus dem Token selbst, sondern aus dem Kontext, in dem es steht.
Baustein 3: Der Transformer, das Herz moderner LLMs
Der Transformer ist die Architektur, die den Durchbruch für viele moderne Large Language Models (LLMs) ermöglicht hat. Die zentrale Innovation ist Self Attention: Das Modell lernt, welche Textteile für die Interpretation eines Tokens besonders relevant sind.
Self Attention verständlich erklärt
Statt Text rein sequenziell zu verarbeiten, berechnet Self Attention für jedes Token eine gewichtete Sicht auf andere Tokens im Kontext. Vereinfacht läuft das so das Jedes Token Repräsentationen erzeugt, die man oft als Query, Key und Value bezeichnet.
Das Modell berechnet, wie gut Query zu den Keys anderer Tokens passt. Daraus entstehen Gewichte, die bestimmen, welche Values stärker in die aktuelle Repräsentation einfließen.
Das Ergebnis ist, dass das LLM bei der Bedeutung eines Tokens relevante Stellen im Satz oder Absatz stärker berücksichtigt.
Multi Head Attention
Ein einzelner Attention Mechanismus wäre zu grob. Multi Head Attention erlaubt mehrere parallele „Sichten“ auf denselben Kontext, etwa eine Sicht auf Syntax, eine auf Semantik, eine auf Referenzen.
Positionsinformation
Da Self Attention allein keine Reihenfolge kennt, wird Positionsinformation ergänzt, damit das Modell Satzstruktur und Reihenfolge korrekt nutzt.
🛠️ Interaktiv ausprobieren:
Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Tokenisierung testen | → Vorhersage simulieren
Wie ein Large Language Moddel Antworten erzeugt: Inferenz Schritt für Schritt
Wenn du eine Frage stellst, passiert im Kern Folgendes
- Prompt wird tokenisiert
- Transformer berechnet Verteilungen über mögliche nächste Tokens
- Decoding wählt Tokens aus und hängt sie an
- Das wiederholt sich, bis die Antwort fertig ist
Entscheidend ist Schritt 3. Denn das Modell liefert keine einzelne Wahrheit, sondern Wahrscheinlichkeiten. Die Umwandlung in Text passiert über Decoding Strategien.
Typische Decoding Steuergrößen
- Greedy: Nimmt immer den wahrscheinlichsten Token
- Sampling: Wählt probabilistisch, dadurch variabler
- Temperature: Steuert, wie stark Wahrscheinlichkeiten geglättet werden, höhere Werte liefern kreativere, aber riskantere Antworten
Warum Halluzinationen entstehen
Ein LLM optimiert auf Plausibilität im Sprachraum, nicht auf Wahrheitssicherung. Wenn Kontext, Datenlage oder Prompt unklar sind, kann das Modell sehr überzeugend formulieren, obwohl die Aussage faktisch falsch ist. Genau deshalb gewinnen Inhalte mit klaren Definitionen, Zahlen, Quellen und eindeutigen Strukturmerkmalen in KI Antworten deutlich häufiger.
🛠️ Interaktiv ausprobieren:
Weitere Mini-Tools, um die Funktionsweise von LLMs besser zu verstehen:
→ Tokenisierung testen | → Attention verstehen
Wie ein LLM lernt: Training Pipeline von Rohdaten bis Chat Modell
Die grobe Pipeline moderner LLMs lässt sich in drei Stufen erklären
1. Pretraining
Das LLM lernt auf großen Textmengen, Tokens vorherzusagen. Es baut dabei ein breites Sprach und Wissensmuster auf.
2. Instruction Tuning
Dann wird es auf Aufgabenformate und Instruktionen angepasst, damit es besser auf Nutzerintention reagiert.
3. Alignment durch menschliches Feedback, oft RLHF
RLFH Erklärung: Ein verbreiteter Ansatz ist die RLHF. Dabei werden die Modellantworten von Menschen bewertet und das Modell wird so weiter optimiert, so dass es hilfreicher und weniger problematisch antwortet. Eine bekannte Referenz ist das InstructGPT Paper.
Ergänzend gibt es Konzepte wie Constitutional AI, bei denen Regeln und Prinzipien stärker in den Prozess eingebaut werden.
Quelle: https://arxiv.org/abs/2203.02155
Warum Skalierung wirkt, aber nicht grenzenlos
Es gibt robuste empirische Befunde, dass Modellleistung häufig mit Modellgröße, Datenmenge und Rechenaufwand in vorhersehbaren Zusammenhängen steigt. Diese Beobachtung wird oft als Scaling Laws diskutiert.
Ein wichtiges Update dazu liefert die Chinchilla Arbeit: Viele Modelle waren historisch eher unter trainiert, weil sie relativ gesehen zu wenig Tokens gesehen haben. Compute-Optimale Training verlangt ein ausgewogeneres Verhältnis zwischen Modellgröße und Datenmenge.
Grenzen und Risiken: Was ein LLM nicht kann
Ein LLM kann halluzinieren. Das bedeutet, dass es Antworten gibt, die nicht der Wahrheit entsprechen. Dieser Vorgang ist bekannt und hat seinen Ursprung darin, dass LLMs darauf ausgelegt sind, dem Nutzer in jedem Fall einen Mehrwert zu bieten. Das führt dazu, dass ein LLM, wenn es etwas nicht weiß, einfach eine Antwort, eine Quelle oder Fakten erfindet, die nicht stimmen.
Zudem ist es enorm wichtig, wie genau ein Prompt formuliert wurde. Die Antwort eines LLM hängt stark davon ab, was es bereits über den Nutzer weiß, wie der bisherige Gesprächsverlauf war und was genau die Zielsetzung eines Prompts ist. Eine einfache Frage wird einfach beantwortet. Enthält die Frage allerdings auch eine Zielsetzung und berücksichtigt, was der Fragesteller erwartet, wird das Ergebnis besser.
Eine weitere Gefahr besteht darin, dass durch Prompt Injection Sicherheitsrisiken entstehen können. So können Angreifer gezielt Inhalte manipulieren, um etwa Sicherheitslücken auszunutzen. So etwas ist bereits bei Code auf GitHub passiert. Ein Hacker hat schadhaften Code hochgeladen, der von den Crawlern der LLMs kopiert und bei bestimmten Programmieraufforderungen der Nutzer implementiert wurde. Dadurch hat der Hacker Zugriff auf das System erhalten.
Für Unternehmen ist das: Die Nutzung von LLMs erfordert saubere Datenquellen, klare Prozesse und Inhalte, die sich gut referenzieren lassen.
Was das für SEO und GEO bedeutet: So werden Inhalte LLM relevant
Klassische SEO optimiert in erster Linie für Ranking Signale und Suchintention in Suchmaschinen. Bei der Generative Engine Optimization kommt eine zusätzliche Ebene dazu: Inhalte müssen so strukturiert sein, dass sie in KI Antworten als verlässliche, zitierfähige Quelle dienen.
Was in der Praxis besonders gut funktioniert
- Definitionen früh im Text und klar in einem Satz formuliert
- Schrittfolgen und Checklisten mit eindeutigen Begriffen
- Zahlen und Behauptungen nur mit Quelle oder als klare Einschätzung markieren
- FAQ und Glossar, weil KI Systeme daraus präzise Antwortbausteine ziehen können
- Gute interne Verlinkung, damit Themencluster erkennbar sind
Wenn du das konsequent umsetzt, erhöhst du die Chance, dass deine Inhalte nicht nur gefunden, sondern auch in generativen Antworten verwendet werden.
Weiterführend: Wenn du deine Website gezielt für Sichtbarkeit in KI Antworten optimieren willst, findest du unseren Ansatz hier