Vor Kurzem hat Google still und leise die technische Dokumentation seines KI-Produkts NotebookLM aktualisiert – ein Schritt, der in der SEO- und Publisher-Szene für Diskussion sorgt. Der entscheidende Punkt: NotebookLM ignoriert ausdrücklich die robots.txt-Datei. Das mag auf den ersten Blick harmlos wirken, doch im Kern geht es um nichts Geringeres als die Kontrolle über den Zugriff auf Webinhalte durch automatisierte Systeme.
Was ist Google NotebookLM eigentlich?
NotebookLM ist ein künstlich intelligenter Recherche- und Notizassistent von Google. Du kannst eine Website oder ein Dokument in das Tool laden, und es analysiert die Inhalte, fasst sie zusammen und beantwortet weiterführende Fragen dazu. Besonders beeindruckend (und ein bisschen gruselig) ist die Funktion, automatisch Gedankenlandkarten und Übersichten zu erzeugen – also inhaltliche Strukturen, Themenfelder und Zusammenhänge zu erkennen und visuell aufzubereiten.
NotebookLM basiert auf Googles generativer KI-Infrastruktur. Es holt sich Inhalte, die Nutzer ausdrücklich „einspeisen“ – etwa über URLs oder hochgeladene Texte. Auf Basis dieser Quellen erstellt das System Zusammenfassungen, Erklärungen und neue Inhalte. Und genau hier wird es spannend: Wenn ein Nutzer etwa den Link zu deiner Website in NotebookLM einfügt, ruft Google diese Seite aktiv ab, um sie zu analysieren. Dieser Zugriff wird durch einen speziellen User Agent ausgelöst – und dieser folgt laut Dokumentation nicht den in der robots.txt festgelegten Regeln.
Warum NotebookLM die robots.txt ignoriert
Die robots.txt dient traditionell dazu, Suchmaschinen-Crawlern mitzuteilen, welche Teile einer Website gecrawlt oder ausgeschlossen werden dürfen. Wenn du z. B. verhindern willst, dass bestimmte Unterseiten in den Google-Index gelangen, kannst du sie dort blockieren. Das funktioniert, weil klassische Crawler wie Googlebot die Anweisungen respektieren.
NotebookLM ist aber kein klassischer Crawler. Der Abruf erfolgt „user-triggered“ – also durch eine Handlung eines Menschen. Google beschreibt diese sogenannten User-Triggered Fetchers so, dass sie im Namen des Nutzers agieren. Und genau deshalb, so steht es auch in der offiziellen Entwicklerdokumentation, ignorieren diese Fetcher üblicherweise robots.txt.
Das bedeutet konkret: Wenn jemand NotebookLM anweist, deine Seite zu analysieren, wird der Inhalt direkt abgerufen – selbst dann, wenn du in der robots.txt ein „Disallow: /“ gesetzt hast. Für Google ist das kein Crawling im klassischen Sinn, sondern eine Dienstleistung für einzelne Nutzer. Technisch gesehen ist also der Nutzer derjenige, der deine Website aufruft – nicht Google Search.
Ein Perspektivwechsel: Indexieren versus Extrahieren
Hier sollte man unterscheiden: Während Googlebot Inhalte indexiert, um sie in Suchergebnissen anzuzeigen, verarbeitet NotebookLM Inhalte auf Zuruf, um sie dem Benutzer bereitzustellen. Das wirkt harmlos, ist aber de facto eine automatisierte Content-Auswertung. Viele Verleger und Website-Betreiber sehen darin ein potenzielles Problem, denn so können Inhalte systematisch „ausgelesen“ und für KI-Modelle oder Tools nutzbar gemacht werden – ohne Zustimmung oder Kontrolle des Seiteninhabers.
Meiner Meinung nach ist das ein heikler Grenzbereich. Einerseits handelt es sich tatsächlich um ein legitimes Nutzerverhalten – ein Mensch möchte sich Informationen zusammenfassen lassen. Andererseits läuft der Zugriff eben nicht über einen normalen Browser, sondern über eine Google-Infrastruktur, die Daten maschinell verarbeitet.
Wie erkennt man den Zugriff von NotebookLM?
NotebookLM nutzt den eigenen User Agent String Google-NotebookLM. Wenn du beispielsweise Logs deines Servers auswertest, kannst du dort Zugriffe sehen, die diesen Eintrag enthalten. So erkennst du, ob jemand über NotebookLM Inhalte deiner Seite abgerufen hat.
Ein Beispiel aus einem Logfile könnte so aussehen:
Mozilla/5.0 (compatible; Google-NotebookLM/1.0; +https://notebooklm.google.com/)
Diese Zugriffe lassen sich von normalen Googlebots, die zum Indexieren dienen, klar unterscheiden. Und das ist aus Sicht vieler Website-Betreiber zumindest hilfreich: Man kann den Traffic zuordnen und darauf reagieren.
Warum das eine größere Bedeutung hat, als man denkt
Das Ignorieren der robots.txt klingt auf dem Papier unspektakulär – aber es ist ein deutliches Signal, wohin die Reise bei KI-gestützten Tools geht: Der Zugriff auf Webinhalte verschiebt sich weg von der Suche hin zur Analyse und Verarbeitung. Immer mehr Systeme „lesen“ Websites nicht, um Nutzer auf sie zu leiten, sondern um deren Inhalte intern zu verarbeiten und wiederzugeben.
Für dich als Website-Betreiber kann das heißen: Deine Inhalte werden möglicherweise von Tools wie NotebookLM, ChatGPT, Perplexity oder anderen generativen KI-Plattformen ausgelesen – obwohl du eigentlich per robots.txt oder Meta-Tags eine Sperre intendiert hattest. Das ist eine neue Realität, die noch nicht vollständig rechtlich oder ethisch geklärt ist.
Die rechtliche Grauzone
Juristisch ist die Lage nicht eindeutig. Google betont, dass NotebookLM nur auf User-Anfrage agiert und im Auftrag der Nutzer handelt – also nicht „eigenmächtig“ crawlt. Aber wenn du eine Website mit urheberrechtlich geschützten Inhalten betreibst, möchtest du vielleicht verhindern, dass diese systematisch in KI-Tools landen. Hier bleibt die Frage: Zählt so ein Zugriff als private Nutzung oder als automatisiertes „Scraping“?
Ich persönlich halte es für notwendig, dass sich rechtliche und technische Regelwerke – ähnlich wie einst beim Caching oder beim SEO-Crawling – weiterentwickeln. Sonst werden Publisher zunehmend die Kontrolle darüber verlieren, wie ihre Inhalte genutzt werden.
So kannst du NotebookLM blockieren
Wenn du verhindern möchtest, dass NotebookLM auf deine Inhalte zugreift, kannst du es über die Serverkonfiguration tun. Da das Tool wie erwähnt den User Agent „Google-NotebookLM“ nutzt, lässt es sich gezielt filtern oder blockieren.
Für WordPress-Betreiber mit dem Sicherheitsplugin Wordfence geht das ganz einfach: Du stellst eine Regel ein, die sämtliche Anfragen mit diesem User-Agent automatisch abweset oder sperrt. Damit verhinderst du nicht, dass Menschen deine Seite besuchen – sondern nur, dass Google sie maschinell über NotebookLM abruft.
Alternativ kannst du in der .htaccess-Datei folgenden Code einsetzen:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM [NC]
RewriteRule .* - [F,L]
</IfModule>Damit bekommt der Abruf von NotebookLM eine klassische 403-Fehlermeldung („forbidden“). Allerdings solltest du vorsichtig sein: Manchmal ändern Dienste wie diese ihre User-Agent-Kennung oder führen Zwischenschichten über andere Server aus – absolute Sicherheit gibt es also nicht.
Ist es klug, NotebookLM zu blockieren?
Das ist Typsache. Wenn du Inhalte exklusiv halten oder lizenzrechtlich schützen möchtest, ist Blocken sinnvoll. Wenn du aber willst, dass Nutzer über Tools wie NotebookLM von deinen Inhalten profitieren (z. B. in wissenschaftlichen Kontexten), spricht wenig dagegen, sie offen zu lassen. Es ist also eher eine strategische Entscheidung – wie früher schon bei der Frage, ob man Googlebot-Image oder Ads-Bots zulässt.
Was dieser Schritt über Googles Strategie verrät
Unter der Oberfläche zeigt dieser kleine Dokumentationshinweis, wie ernst Google die Integration von KI-Diensten in alltägliche Nutzungsszenarien nimmt. Immer mehr Angebote entstehen außerhalb der klassischen Suche – sei es Gemini, SGE oder NotebookLM. Diese Tools greifen auf Webinhalte zu, um Antworten zu liefern, nicht um Verweise zu indexieren.
Das hat Konsequenzen: Traffic wird zunehmend über KI-generierte Zusammenfassungen kanalisiert statt über organische Suche. Und das wiederum betrifft Publisher, SEOs und Content-Creators fundamental. Wenn KI-Tools unabhängiger vom Index arbeiten, verlieren traditionelle Ranking-Mechanismen an Gewicht. Du solltest daher den Blick erweitern – nicht nur für Optimierungen im Google-Index, sondern auch für die Nutzung deiner Inhalte durch KI-Systeme.
Fazit
Es mag wie ein kleines technisches Detail klingen, dass NotebookLM die robots.txt ignoriert – aber in Wahrheit steckt dahinter ein Paradigmenwechsel. KI-Tools wie dieses greifen nicht mehr in














