Wie KI-Agenten deine Website sehen – und wie du sie darauf vorbereitest
Jede größere KI-Plattform kann inzwischen eigenständig Websites durchsuchen. Doch während ein Mensch Layout, Farben oder Schriftarten wahrnimmt, sieht ein KI-Agent etwas völlig anderes. Für ihn ist deine Seite ein Netz aus Struktur, Rollen und Bezeichnungen – und ob er sie verstehen kann, entscheidet oft die sogenannte Accessibility Tree, ursprünglich für Screenreader gedacht. Genau dieser Baum wird nun zum wichtigsten Interface zwischen Website und KI-Agenten.
Was ich über die letzten Monate immer wieder beobachtet habe: Wer seine Seite für KI-Agenten optimiert, macht gleichzeitig vieles richtig, was Barrierefreiheit seit Jahren fordert. Es geht also nicht um einen ganz neuen Standard, sondern darum, alte Webprinzipien neu zu verstehen.
Wie KI-Agenten Websites wahrnehmen
Wenn du deine Seite öffnest, siehst du Grafiken, Farben, Buttons. Ein KI-Agent dagegen extrahiert Strukturen, Datenobjekte und Verknüpfungen. Der Blick der Maschine ist funktional, nicht visuell – und aktuell haben sich drei Hauptmethoden etabliert.
1. Visuelle Analyse: Der Screenshot-Ansatz
Modelle wie Anthropic’s Computer Use gehen buchstäblich sehenden Schritts vor: Sie erstellen kontinuierlich Screenshots, analysieren visuelle Elemente, treffen Entscheidungen, klicken, tippen und wiederholen diesen Prozess. Auch Googles „Project Mariner“ arbeitet ähnlich – ein Kreislauf aus Beobachtung, Planung, Handlung. Ein solches Vorgehen funktioniert, ist aber rechenintensiv und anfällig für kleinste Layoutänderungen. Schon ein verschobener Button kann die Maschine irritieren.
2. Strukturanalyse: Der Accessibility-Tree
Ganz anders funktioniert ChatGPT Atlas von OpenAI. Statt Pixeln liest es den Accessibility-Tree – eine aufbereitete Struktur, in der jedes Element eine Rolle (z. B. „Button“, „Link“) und oft eine Bezeichnung besitzt. Ursprünglich wurde das für Screenreader entwickelt, heute greift die KI darauf zu, um Buttons, Formulare und Navigation zu verstehen.
Auch Microsofts Playwright MCP folgt diesem Weg: keine Screenshots, sondern „Accessibility Snapshots“. Damit hat sich der strukturelle Zugriff zum Standard für automatisierte Browseraktionen entwickelt.
3. Hybride Methoden
Die fortschrittlichsten Agenten – etwa OpenAIs „Computer-Using Agent“ oder Perplexitys Browsermodul „Comet“ – kombinieren die beiden Ansätze. Sie werten gleichzeitig Screenshots, DOM-Struktur und Accessibility-Informationen aus, um das Beste aus allen Welten zu nutzen.
Das Ergebnis ist eindeutig: Selbst Anbieter, die einst visuell arbeiteten, nutzen inzwischen die Accessibility-Struktur, weil sie zuverlässiger und ressourcenschonender ist. Kurz gesagt: Der Accessibility-Tree ist die neue API deiner Website.
Warum die Accessibility-Struktur entscheidend wird
Der Accessibility-Tree ist eine abstrahierte Version des DOM – aber ohne Ballast. Unwichtige Elemente wie Styles oder Skripte entfallen; übrig bleiben interaktive und semantisch relevante Bestandteile.
Für KI-Agenten ist das Gold wert: Statt 5.000 DOM-Knoten analysieren sie nur 500 sinnvolle. Entsprechend empfiehlt sogar OpenAI in seinen Entwicklerhinweisen: Verwende klar beschriftete ARIA-Rollen, Beschreibungen und Zustände.
Eine eindrucksvolle Bestätigung liefert eine Studie der Universitäten Berkeley und Michigan (CHI 2026). Getestet wurde, wie gut ein KI-Agent reale Webaufgaben bewältigt, sobald Barrierefreiheitsfunktionen eingeschränkt werden. Mit vollständiger Accessibility erreichte das System rund 80 % Erfolgsquote; bei Tastaturnavigation sank sie auf unter 45 %. Die Zahl zeigt: Ohne klare Strukturen verlieren Agenten buchstäblich die Orientierung.
Was daraus folgt, ist offensichtlich: Gute semantische Struktur macht Websites nicht nur menschlicher, sondern auch maschinenlesbar stabil.
Semantisches HTML als Fundament
Barrierefreiheit und saubere Semantik gehören zusammen. Browser generieren den Accessibility-Tree erst auf Basis deines HTML-Codes. Jede Entscheidung im Markup – sei es ein echtes <button> oder ein umfunktioniertes <div> – hat direkte Auswirkungen darauf, ob ein Agent deine Buttons, Formulare oder Menüs versteht.
Ein Beispiel aus der Praxis:
Ein Agent erkennt ein echtes <button> automatisch als klickbar, inklusive Zustandsinformationen. Ein <div onclick> bleibt für ihn uninteressant.
Dasselbe gilt für Formularfelder. Jedes Eingabefeld braucht ein Label und idealerweise das richtige autocomplete-Attribut, sodass sowohl Browser als auch KI-Agenten wissen, welche Daten hineingehören – ob E-Mail, Telefonnummer oder Anschrift.
Auch Überschriftenstruktur ist wichtig. h1 steht für das Hauptthema, h2 für Unterabschnitte. Agenten nutzen diese Hierarchie ähnlich wie Menschen ein Inhaltsverzeichnis: um Informationen zu gliedern und Sprungmarken zu setzen.
Und schließlich: Verwende Landmark-Elemente wie <nav>, <main>, <footer>. Sie verraten Maschinen direkt, welche Seitenteile Navigation, Hauptinhalt oder Zusatzinfos sind. Ein <div class="nav"> ist schlicht weniger aussagekräftig.
ARIA – hilfreich, aber mit Maß
ARIA ist kein Allheilmittel. Die wichtigste Regel lautet laut W3C: „Verwende native HTML-Elemente, wenn möglich – ARIA nur, wenn nötig.“
In meiner Erfahrung ist das Missverständnis weit verbreitet: Manche setzen massenhaft ARIA-Attribute ein, um KI oder SEO zu „optimieren“. Doch überladene oder falsch genutzte ARIA-Tags können Accessibility sogar verschlechtern.
Sinnvoll ist ARIA dort, wo native Elemente keine passenden Rollen bieten – etwa bei Tabs oder dynamischen Panels. Mit Attributen wiearia-expanded oder aria-hidden teilst du Agenten Zustandsänderungen mit, wenn sich Menüs oder Dialoge öffnen und schließen.
Was du vermeiden solltest: übertriebene Keyword-Manipulation in aria-label. Genau das führte schon in früheren SEO-Zeiten zum Missbrauch von „meta keywords“. Heute wird diese Falle einfach aus dem visuellen in den semantischen Raum verlagert.
Server-Side Rendering und Inhaltssichtbarkeit
Agenten können vieles, aber nicht alle arbeiten mit einem vollständigen Browser. Während interaktive Systeme wie Atlas oder Chrome Auto-Browse deine Seite rendern, durchsuchen viele KI-Crawler nur den HTML-Quelltext – sie führen kein JavaScript aus.
Das bedeutet: Wenn dein Inhalt erst clientseitig lädt, sieht der Crawler eine leere Seite. Damit verschwindet dein Content aus dem Index der KI-Suchmaschinen. Server-Side Rendering (SSR) oder statische Vor-Rendern wird damit nicht bloß Performancefrage, sondern eine Sichtbarkeitsstrategie.
Vermeide auch kritisch verpackte Infos hinter Tabs oder Akkordeons. Inhalte, die für Nutzer und Agenten gleich sichtbar sind, werden zuverlässiger erfasst und in Antworten zitiert.
Wie du testest, was KI wirklich sieht
Ein guter Ausgangspunkt ist der Test mit Screenreadern wie VoiceOver oder NVDA. Wenn du damit deine Seite bedienen kannst, können Agenten sie in der Regel ebenfalls verstehen.
Für ein technisches Prüfwerkzeug empfehle ich Microsofts Playwright MCP. Es liefert eine Accessibility Snapshot-Ansicht deines Codes – also genau das, was Agenten analysieren. Wenn dort Buttons fehlen oder Felder keine Namen haben, weißt du sofort, wo dein Interface Nachhilfe braucht.
Weitere Möglichkeiten:
- Mit dem Textbrowser Lynx lässt sich prüfen, ob Struktur und Reihenfolge deiner Inhalte auch ohne CSS und JavaScript Sinn ergeben.
- Tools wie Stagehand simulieren komplexe Agenteninteraktionen und zeigen, ob Workflows – z. B. Formulare oder Checkouts – automatisiert funktionieren.
Praktische Checkliste für Entwicklerteams
Schnelle Erfolge:
- Ersetze alle klickbaren
<div>durch echte<button>oder<a>. - Füge korrekte
<label>zu jedem Eingabefeld hinzu, verwende sinnvolle Autocomplete-Werte. - Sorge dafür, dass der Hauptinhalt auf Serverseite gerendert wird.
Nächste Ebene:
4. Ergänze Landmark-Regionen und überprüfe Überschriftenebenen.
5. Mache wichtige Informationen sofort sichtbar, nicht erst nach Klick.
6. Verwende ARIA-Attribute nur dort, wo sie wirklich notwendig sind – etwa bei dynamischen Menüs.
Daueraufgabe:
Teste regelmäßig mit einem Screenreader, prüfe Accessibility-Snapshots und halte die semantische Struktur konsistent.
Diese Anpassungen benötigen kein neues Framework und keine exotischen Tools – nur Disziplin beim Markup.
Was das alles praktisch bedeutet
Das Bild, das sich abzeichnet, ist spannend:
Webzugänglichkeit wird zum Maschinendialog. Was ursprünglich für Menschen mit Sehbehinderung entwickelt wurde, wird nun zur Grundlage, wie KI-Agenten Inhalte verstehen, bewerten und bedienen.
Websites mit sauberem semantischem Aufbau gewinnen damit doppelt: Sie sind besser für Menschen nutzbar und gleichzeitig für Maschinen leichter interpretierbar – was in einer Zukunft voller Agentic-Systeme schlicht eine Frage der Sichtbarkeit ist.
Aus meiner Sicht sollten Teams Barrierefreiheit nicht länger als Compliance-Pflicht begreifen, sondern als strategische Investition in die Zukunftsfähigkeit ihres digitalen Ökosystems. Wer heute semantisch sauber arbeitet, wird morgen automatisch für KI und neue Browseragenten bereit sein.
Fazit
- KI-Agenten lesen Websites primär über den Accessibility-Tree, nicht über Design oder CSS.
- Semantisches HTML ist das Fundament – es schafft Verständnis ohne Zusatzaufwand.
- ARIA ist nützlich, aber nur ergänzend.
- Serverseitiges Rendern entscheidet über Sichtbarkeit in KI-Suchindizes.
- Einfache Screenreader-Tests sind heute die beste Technikprüfung für KI-Kompatibilität.
Im Grunde führt uns diese Entwicklung dorthin zurück, wo das Web einst begann: zu sauberem, standardkonformem, zugänglichem HTML. Nur dass der neue Nutzer nicht allein der Mensch ist – sondern auch die Maschine, die im Hintergrund für ihn interagiert.
Und vielleicht, ganz ironisch, motiviert uns diesmal nicht der Mensch, sondern eben die KI dazu, das Web endlich wieder besser zu machen.







