Spannend, wie tief Forscher inzwischen in die „Black Boxes“ der großen Sprachmodelle schauen. In einer neuen Untersuchung wollten sie herausfinden, ob und wie sich die Rankings von KI‑Suchmaschinen beeinflussen lassen. Zum Einsatz kamen dabei Modelle wie Claude 4, Gemini 2.5, GPT‑4o und Grok 3 – jedoch nicht über die normalen Chat‑ oder Suchoberflächen, sondern gezielt über Programmierschnittstellen. So konnten Personalisierung, Kontextfilter und andere Störgrößen ausgeschlossen werden. Das Ziel: systematisch testen, welche Arten von Textänderungen die Reihenfolge der Ergebnisse verändern.
Der Ansatz CORE – Ideen statt Zufall
Das Forscherteam nannte seine Methode CORE (Controlling Output Rankings in Generative Engines). Grob gesagt geht es darum, Texte so zu modifizieren, dass ein bestimmter Eintrag in der vom LLM erzeugten Ergebnisliste nach oben rutscht. Ganz bewusst sprechen sie von „Optimierung“ – ein Begriff, der in der SEO‑Welt sofort anklingt. Doch hier passiert kein klassisches Keyword‑Tuning, sondern ein gezieltes Spielen mit der Argumentations‑ und Bewertungslogik der Modelle.
Warum der Versuch wichtig ist
KI ‑ Suchsysteme erzeugen Inhalte nicht einfach datenbank‑basiert, sondern über probabilistische Sprachgenerierung. Das heißt, jede kleine Änderung im Input kann große Wirkung zeigen. Für Marken, die künftig in KI‑suchgestützten Oberflächen sichtbar bleiben wollen, ist es also entscheidend zu verstehen, welche Art Sprache diese Systeme bevorzugen. Das Projekt zeigt, dass sich diese Präferenzen tatsächlich messen und steuern lassen – zumindest im Labor.
Zwei Wege zum Durchblick durch die Black Box
Da die internen Gewichte der Modelle unbekannt sind, nutzten die Forscher zwei Strategien:
1. Query‑based Lösung: Sie behandelten das Modell als reine Eingabe‑Ausgabe‑Maschine. Ein Dokument wurde minimal verändert, das Modell erhielt wiederholt denselben Suchprompt, und sie beobachteten, wie sich das Ranking der einzelnen Texte verschob.
2. Shadow‑Model‑Lösung: Hier trainierten sie ein kleineres Ersatzmodell, das die Entscheidungen des großen Systems nachahmen sollte. Ziel war, die Wirkung der Eingaben zu approximieren, ohne jedes Mal den teuren API‑Call auszuführen.
Interessanterweise schnitt die erste, sehr pragmatische Variante besser ab: In rund 80 Prozent der Fälle gelang es damit, bisher niedrig platzierte Dokumente an die Spitze zu bringen – ein erstaunlich hoher Wert.
Wie sie Texte veränderten
Spannend ist, dass sie zwei Stilrichtungen ausprobierten, um Inhalte zu erweitern:
- Reasoning‑basierte Ergänzungen – Texte, die Schritt für Schritt erklären, warum ein Produkt oder Thema besonders gut zur Anfrage passt.
- Review‑basierte Ergänzungen – Absätze im Stil von Nutzerbewertungen, also wertend, subjektiv und vergleichend.
Beide Varianten veränderten das Ranking spürbar. Allerdings reagierten die LLMs unterschiedlich: GPT‑4o und Claude 4 bevorzugten Argumentationen mit logischer Begründung, während Gemini 2.5 und Grok 3 emotionalere, review‑artige Passagen höher einstuften. Das legt nahe, dass jedes Modell seine eigene „Text‑Persönlichkeit“ besitzt – ein Aspekt, den Content‑Strategen künftig berücksichtigen müssen.
Das Experiment mit dem Schattenmodell
Beim zweiten Ansatz nutzten die Forschenden Llama 3.1 8B als vereinfachtes Abbild. Sie fütterten es mit denselben Eingaben‑Ausgaben‑Paaren, bis es die Ranking‑Reaktionen des Ziel‑LLM annähernd reproduzieren konnte. Im Vergleich zu GPT‑4o zeigte das Mini‑Modell eine sehr hohe – ungefähr 4,5 von 5 Punkten – Ähnlichkeit in den Entscheidungen. Das war wichtig, um anschließend viele Varianten schnell durchzuspielen und kostengünstig Muster zu erkennen.
Erstaunliche Beobachtungen
Selbst wenn das Schattenmodell nicht perfekt mit dem Original übereinstimmte, übertrugen sich die Optimierungen teilweise dennoch. Die Effekte nahmen zwar sanft ab, fielen aber nicht sofort auf null. Das heißt: Man kann mit groben Näherungen sinnvolle Richtungen ableiten – ein Prinzip, das auch im klassischen SEO bekannt ist, wenn man etwa Suchintentionen anhand kleiner Datensamples schätzt.
Die drei Optimierungswege
Neben der reinen Textänderung testeten sie weitere Verfahren:
- String‑basiert: Sie experimentierten mit scheinbar sinnlosen Zeichenfolgen – eine Art „magischer Code“ – und passten diese über 2000 Iterationen an. Das funktionierte zu etwa 33 Prozent, also moderat, war aber natürlich für Menschen sofort erkennbar und daher in der Praxis unbrauchbar.
- Reasoning‑basiert: Hier formulierte das System systematische Vergleiche oder logische Schrittfolgen, um die Relevanz des Ziels zu argumentieren. Diese Variante lieferte die stabilsten Ergebnisse, führte jedoch teilweise zu unnatürlicher, überstrukturierter Sprache – also leicht erkennbar als KI‑optimiert.
- Review‑basiert: Diese Texte im Stil echter Bewertungen schnitten ebenfalls stark ab – bis zu 80 Prozent Erfolgsrate – und wirkten oft glaubwürdiger. Allerdings sind sie ethisch heikel, wenn reale Produkterfahrung fehlt.
Wie so ein konstruiertes Review aussah
Die Passagen begannen meist mit einer Einordnung des Produkttyps („Air‑Fryer‑Modelle“ vs. „Ofen‑Designs“) und führten über Funktionsbeschreibungen bis zu einer fiktiven „Final Verdict“. Der Aufbau ähnelte verblüffend stark professionellen Produktvergleichen – inklusive Tipps zu Kaufentscheidung, Preis und Lieblingsmodell. Verständlich, dass die Modelle auf so etwas besonders reagierten: Es deckt viele semantische Felder ab, die sie aus echten Nutzerrezensionen kennen.
Was sich daraus lernen lässt
- 1 – LLMs besitzen messbare Geschmacksrichtungen. Sie bevorzugen bestimmte Tonalitäten oder Argumentationsmuster. Wer also Inhalte für KI‑Antwortoberflächen optimieren möchte, sollte untersuchen, ob „rationale“ oder „emotionale“ Sprache besser greift.
- 2 – Erweiterung schlägt Kürzung. Je mehr relevante Erklär‑ oder Bewertungsstücke hinzugefügt wurden, desto stabiler verbesserten sich die Rankings. Reines Umformulieren half kaum; inhaltliche Tiefe dagegen schon.
- 3 – Nicht jedes Modell reagiert gleich. Das ist vielleicht die wichtigste Erkenntnis: In Zukunft gibt es nicht die eine universelle AI‑SEO‑Strategie, sondern mehrere, modellabhängige Dialekte.
- 4 – Missbrauch ist möglich. Die Experimente zeigen auch eine dunkle Seite – gefälschte Bewertungen könnten generative Systeme täuschen. Hier braucht es dringend Schutzmechanismen.
Meine persönliche Einschätzung
Ganz ehrlich: Mich überrascht, wie vorhersehbar KI‑Modelle teilweise reagieren. Offenbar greifen sie stärker auf gelernte rhetorische Muster zurück, als viele erwarten. Aus meiner Sicht eröffnet das Chancen – man kann Content gezielter gestalten – aber auch Risiken. Wenn irgendwann jeder anfängt, Texte künstlich auf diese Weise zu „trainieren“, könnten die Modelle in eine Feedback‑Schleife geraten: Sie bewerten stilistische Muster statt echter Nutzqualität.
Was mir gefällt, ist die wissenschaftliche Strenge des Ansatzes – die Idee, mit Schattenmodellen kontrolliert zu testen, ist elegant. Für die Praxis heißt das: Wer künftig in KI‑Antwortsystemen sichtbar bleiben möchte, sollte anfangen, Daten und Reaktionen der Modelle zu beobachten wie SEO‑Profis einst Google‑SERPs. Der Unterschied: Heute spricht man nicht mehr von Keywords, sondern von Argumentationsmustern.
Zum Schluss
Die Studie fand in einer sterilen Laborumgebung statt – ohne Live‑Suche, ohne Nutzerfeedback. Trotzdem macht sie deutlich: Generative AI‑Engines lassen sich gezielt beeinflussen. Und das wird, ob man es mag oder nicht, zur neuen Disziplin moderner Such‑ und Content‑Optimierung. Ich bin sicher, die kommenden Jahre werden zeigen, wer diese Mechanismen verantwortungsbewusst nutzt – und wer sie missbraucht.







