NotebookLM ignoriert robots txt und stiehlt Webinhalte heimlich

Tom Brigl  –

Veröffentlicht:

12.10.2025,

Letzte Aktualisierung:

12.10.2025
Inhaltsverzeichnis

Vor Kurzem hat Google still und leise die technische Dokumentation seines KI-Produkts NotebookLM aktualisiert – ein Schritt, der in der SEO- und Publisher-Szene für Diskussion sorgt. Der entscheidende Punkt: NotebookLM ignoriert ausdrücklich die robots.txt-Datei. Das mag auf den ersten Blick harmlos wirken, doch im Kern geht es um nichts Geringeres als die Kontrolle über den Zugriff auf Webinhalte durch automatisierte Systeme.

Was ist Google NotebookLM eigentlich?

NotebookLM ist ein künstlich intelligenter Recherche- und Notizassistent von Google. Du kannst eine Website oder ein Dokument in das Tool laden, und es analysiert die Inhalte, fasst sie zusammen und beantwortet weiterführende Fragen dazu. Besonders beeindruckend (und ein bisschen gruselig) ist die Funktion, automatisch Gedankenlandkarten und Übersichten zu erzeugen – also inhaltliche Strukturen, Themenfelder und Zusammenhänge zu erkennen und visuell aufzubereiten.

NotebookLM basiert auf Googles generativer KI-Infrastruktur. Es holt sich Inhalte, die Nutzer ausdrücklich „einspeisen“ – etwa über URLs oder hochgeladene Texte. Auf Basis dieser Quellen erstellt das System Zusammenfassungen, Erklärungen und neue Inhalte. Und genau hier wird es spannend: Wenn ein Nutzer etwa den Link zu deiner Website in NotebookLM einfügt, ruft Google diese Seite aktiv ab, um sie zu analysieren. Dieser Zugriff wird durch einen speziellen User Agent ausgelöst – und dieser folgt laut Dokumentation nicht den in der robots.txt festgelegten Regeln.

Warum NotebookLM die robots.txt ignoriert

Die robots.txt dient traditionell dazu, Suchmaschinen-Crawlern mitzuteilen, welche Teile einer Website gecrawlt oder ausgeschlossen werden dürfen. Wenn du z. B. verhindern willst, dass bestimmte Unterseiten in den Google-Index gelangen, kannst du sie dort blockieren. Das funktioniert, weil klassische Crawler wie Googlebot die Anweisungen respektieren.

NotebookLM ist aber kein klassischer Crawler. Der Abruf erfolgt „user-triggered“ – also durch eine Handlung eines Menschen. Google beschreibt diese sogenannten User-Triggered Fetchers so, dass sie im Namen des Nutzers agieren. Und genau deshalb, so steht es auch in der offiziellen Entwicklerdokumentation, ignorieren diese Fetcher üblicherweise robots.txt.

Das bedeutet konkret: Wenn jemand NotebookLM anweist, deine Seite zu analysieren, wird der Inhalt direkt abgerufen – selbst dann, wenn du in der robots.txt ein „Disallow: /“ gesetzt hast. Für Google ist das kein Crawling im klassischen Sinn, sondern eine Dienstleistung für einzelne Nutzer. Technisch gesehen ist also der Nutzer derjenige, der deine Website aufruft – nicht Google Search.

Ein Perspektivwechsel: Indexieren versus Extrahieren

Hier sollte man unterscheiden: Während Googlebot Inhalte indexiert, um sie in Suchergebnissen anzuzeigen, verarbeitet NotebookLM Inhalte auf Zuruf, um sie dem Benutzer bereitzustellen. Das wirkt harmlos, ist aber de facto eine automatisierte Content-Auswertung. Viele Verleger und Website-Betreiber sehen darin ein potenzielles Problem, denn so können Inhalte systematisch „ausgelesen“ und für KI-Modelle oder Tools nutzbar gemacht werden – ohne Zustimmung oder Kontrolle des Seiteninhabers.

Meiner Meinung nach ist das ein heikler Grenzbereich. Einerseits handelt es sich tatsächlich um ein legitimes Nutzerverhalten – ein Mensch möchte sich Informationen zusammenfassen lassen. Andererseits läuft der Zugriff eben nicht über einen normalen Browser, sondern über eine Google-Infrastruktur, die Daten maschinell verarbeitet.

Wie erkennt man den Zugriff von NotebookLM?

NotebookLM nutzt den eigenen User Agent String Google-NotebookLM. Wenn du beispielsweise Logs deines Servers auswertest, kannst du dort Zugriffe sehen, die diesen Eintrag enthalten. So erkennst du, ob jemand über NotebookLM Inhalte deiner Seite abgerufen hat.

Ein Beispiel aus einem Logfile könnte so aussehen:

Mozilla/5.0 (compatible; Google-NotebookLM/1.0; +https://notebooklm.google.com/)

Diese Zugriffe lassen sich von normalen Googlebots, die zum Indexieren dienen, klar unterscheiden. Und das ist aus Sicht vieler Website-Betreiber zumindest hilfreich: Man kann den Traffic zuordnen und darauf reagieren.

Warum das eine größere Bedeutung hat, als man denkt

Das Ignorieren der robots.txt klingt auf dem Papier unspektakulär – aber es ist ein deutliches Signal, wohin die Reise bei KI-gestützten Tools geht: Der Zugriff auf Webinhalte verschiebt sich weg von der Suche hin zur Analyse und Verarbeitung. Immer mehr Systeme „lesen“ Websites nicht, um Nutzer auf sie zu leiten, sondern um deren Inhalte intern zu verarbeiten und wiederzugeben.

Für dich als Website-Betreiber kann das heißen: Deine Inhalte werden möglicherweise von Tools wie NotebookLM, ChatGPT, Perplexity oder anderen generativen KI-Plattformen ausgelesen – obwohl du eigentlich per robots.txt oder Meta-Tags eine Sperre intendiert hattest. Das ist eine neue Realität, die noch nicht vollständig rechtlich oder ethisch geklärt ist.

Die rechtliche Grauzone

Juristisch ist die Lage nicht eindeutig. Google betont, dass NotebookLM nur auf User-Anfrage agiert und im Auftrag der Nutzer handelt – also nicht „eigenmächtig“ crawlt. Aber wenn du eine Website mit urheberrechtlich geschützten Inhalten betreibst, möchtest du vielleicht verhindern, dass diese systematisch in KI-Tools landen. Hier bleibt die Frage: Zählt so ein Zugriff als private Nutzung oder als automatisiertes „Scraping“?

Ich persönlich halte es für notwendig, dass sich rechtliche und technische Regelwerke – ähnlich wie einst beim Caching oder beim SEO-Crawling – weiterentwickeln. Sonst werden Publisher zunehmend die Kontrolle darüber verlieren, wie ihre Inhalte genutzt werden.

So kannst du NotebookLM blockieren

Wenn du verhindern möchtest, dass NotebookLM auf deine Inhalte zugreift, kannst du es über die Serverkonfiguration tun. Da das Tool wie erwähnt den User Agent „Google-NotebookLM“ nutzt, lässt es sich gezielt filtern oder blockieren.

Für WordPress-Betreiber mit dem Sicherheitsplugin Wordfence geht das ganz einfach: Du stellst eine Regel ein, die sämtliche Anfragen mit diesem User-Agent automatisch abweset oder sperrt. Damit verhinderst du nicht, dass Menschen deine Seite besuchen – sondern nur, dass Google sie maschinell über NotebookLM abruft.

Alternativ kannst du in der .htaccess-Datei folgenden Code einsetzen:

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM [NC]
RewriteRule .* - [F,L]
</IfModule>

Damit bekommt der Abruf von NotebookLM eine klassische 403-Fehlermeldung („forbidden“). Allerdings solltest du vorsichtig sein: Manchmal ändern Dienste wie diese ihre User-Agent-Kennung oder führen Zwischenschichten über andere Server aus – absolute Sicherheit gibt es also nicht.

Ist es klug, NotebookLM zu blockieren?

Das ist Typsache. Wenn du Inhalte exklusiv halten oder lizenzrechtlich schützen möchtest, ist Blocken sinnvoll. Wenn du aber willst, dass Nutzer über Tools wie NotebookLM von deinen Inhalten profitieren (z. B. in wissenschaftlichen Kontexten), spricht wenig dagegen, sie offen zu lassen. Es ist also eher eine strategische Entscheidung – wie früher schon bei der Frage, ob man Googlebot-Image oder Ads-Bots zulässt.

Was dieser Schritt über Googles Strategie verrät

Unter der Oberfläche zeigt dieser kleine Dokumentationshinweis, wie ernst Google die Integration von KI-Diensten in alltägliche Nutzungsszenarien nimmt. Immer mehr Angebote entstehen außerhalb der klassischen Suche – sei es Gemini, SGE oder NotebookLM. Diese Tools greifen auf Webinhalte zu, um Antworten zu liefern, nicht um Verweise zu indexieren.

Das hat Konsequenzen: Traffic wird zunehmend über KI-generierte Zusammenfassungen kanalisiert statt über organische Suche. Und das wiederum betrifft Publisher, SEOs und Content-Creators fundamental. Wenn KI-Tools unabhängiger vom Index arbeiten, verlieren traditionelle Ranking-Mechanismen an Gewicht. Du solltest daher den Blick erweitern – nicht nur für Optimierungen im Google-Index, sondern auch für die Nutzung deiner Inhalte durch KI-Systeme.

Fazit

Es mag wie ein kleines technisches Detail klingen, dass NotebookLM die robots.txt ignoriert – aber in Wahrheit steckt dahinter ein Paradigmenwechsel. KI-Tools wie dieses greifen nicht mehr in

Tom Brigl

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Das könnte Dich ebenfalls interessieren:
/
13.11.2025

Manchmal sieht man im Marketing, wie ganze Branchen in eine Richtung rennen – und übersieht dabei, wo die wirklichen Chancen liegen. In den...

/
13.11.2025

Viele Marketingverantwortliche planen ihr SEO-Budget auch 2026 noch so, als ginge es darum, Klicks zu steigern. Dabei hat sich die Realität längst verändert:...

/
12.11.2025

LLMs und deine Content-Strategie – was sich wirklich ändert (und was nicht) Wenn du dich gerade fragst, ob du deine gesamte Content-Strategie überdenken...

/
12.11.2025

In den letzten Wochen kursierte online die Behauptung, dass Google ab 2026 die Nutzung strukturierter Daten einschränken oder gar abschaffen wolle. Diese Spekulationen...

/
11.11.2025

Übersetzung und Zusammenfassung (persönlich, ca. 2.500 Wörter) AI-Suche hat die SEO-Welt völlig verändert. Es reicht heute nicht mehr, gute Inhalte zu produzieren oder...

/
11.11.2025

Strategische Überprüfung – das fehlende Element, das viele SEO-Kampagnen scheitern lässt Wenn du schon länger im SEO arbeitest, wird dir das bekannt vorkommen:...

/
10.11.2025

Such dir heute nicht nur Sichtbarkeit über klassische SEO-Tricks, sondern begreif, wie sich KI-gesteuerte Suchsysteme zu den neuen Gatekeepern entwickeln – ob du...

/
10.11.2025

Ein kompletter lokaler SEO‑Audit – Schritt für Schritt erklärt Wenn du ein lokal tätiges Unternehmen führst – sei es ein Restaurant, ein Handwerksbetrieb...

/
10.11.2025

Wenn du dein lokales Unternehmen online sichtbarer machen möchtest, führt kein Weg an einer gründlichen Überprüfung deiner gesamten Local SEO-Strategie vorbei. Ein solcher...

/
09.11.2025

Manchmal zeigt sich die Ironie im digitalen Zeitalter auf erstaunlich direkte Weise. Ein Werkzeug, das eigentlich Transparenz und Qualität fördern soll, wird von...

/
09.11.2025

Wenn du technische SEO-Audits durchführst, hast du sicher schon unzählige Tools gesehen, die in Sekundenschnelle perfekte Punktzahlen ausspucken. 92 von 100, „grün“ markiert,...

/
08.11.2025

Die klassische Suchmaschinenoptimierung hat ihre besten Tage nicht hinter sich – sie befindet sich vielmehr in einer tiefgreifenden Metamorphose. Lange haben wir in...