Robots.txt

Wichtigste Erkenntnisse

Steuerzentrale für Crawler: Die Datei regelt den Zugriff von Bots auf deine Verzeichnisse.
Keine Index-Garantie: Disallow in der robots.txt verhindert nicht die Indexierung, nur das Crawling.
KI-Wächter: Über die robots.txt kannst du gezielt KI-Bots wie GPTBot blockieren oder erlauben.

robots.txt 3D Infografik - Die Steuerung der Suchmaschinen-Crawler

Moin!

Die robots.txt ist der Türsteher deiner Website. Sie ist eine einfache Textdatei, die im Hauptverzeichnis deiner Domain liegt und den Suchmaschinen-Crawlern (Googlebot) sagt: “Hier darfst du rein, und dort ist der Zutritt verboten.”

Es ist eine extrem simple Textdatei, aber lass dich nicht täuschen: Ein kleiner Tippfehler hier kann deine gesamte Online-Präsenz vernichten.

Jörgs SEO-Klartext (LinkedIn Insights)

"Backlinks kaufen? Viel Spaß beim Russisch Roulette mit deinem Business. Bau lieber eine Plattform, die so gut ist, dass die Leute freiwillig auf dich verlinken."

Bevor der Googlebot oder ein moderner KI-Crawler deine eigentliche Seite sieht, checkt er diese Datei. Ein kleiner Fehler in dieser Datei kann dazu führen, dass deine gesamte Website aus Google verschwindet. Mit Rankscale kannst du überwachen, ob deine robots.txt die Sichtbarkeit für KI-Suchmaschinen unbeabsichtigt einschränkt. Hier ist Tacheles gefragt: Wer nicht weiß, was er tut, sollte die Finger von der robots.txt lassen. Im Rahmen meiner täglichen Arbeit als SEO Freelancer in Berlin ist der Blick in die robots.txt daher immer Schritt Eins bei jedem Audit.

Die Anatomie einer sauberen robots.txt

Das Regelwerk dahinter nennt sich Robots Exclusion Protocol (REP). Es ist ein herrenloser Standard – seriöse Bots halten sich dran, die bösen Skripte ignorieren es.

User-agent: *

Disallow: /internes-backend/

Sitemap: https://deinedomain.de/sitemap.xml

Die wichtigsten Befehle erklärt:

User-agent: An wen richtet sich die Regel? Das Sternchen (*) gilt für alle.
Disallow: Der “Blocker”. Er verbietet das Crawling eines Verzeichnisses.
Allow: Die Ausnahme von der Regel. Erlaubt Zugriff auf Dateien in einem gesperrten Ordner.
Sitemap: Der Wegweiser zum Inhaltsverzeichnis deiner Seite. Gehört in jede gute Datei.

Der größte Mythos: robots.txt vs. Indexierung

Ich sehe es immer wieder in meiner SEO Sprechstunde: Kunden wollen eigentlich, dass ihre Seite indexiert wird, blockieren sich aber versehentlich selbst über die robots.txt. Oft passiert das bei Relaunchs, wenn das Staging-Setup auf den Live-Server übertragen wird und die alte Sperre mitkommt.

Die Wahrheit: Disallow verhindert nur, dass der Bot die Seite herunterlädt. Wenn andere Seiten (über Linkjuice) darauf verlinken, führt Google die URL trotzdem im Index – nur ohne Beschreibung. Das sieht furchtbar aus und schadet deinem Branding. Willst du eine Seite wirklich weg haben? Nutze noindex.

Die robots.txt im Zeitalter der KI (GEO)

Ganz neu: Du kannst gezielt KI-Trainings-Bots blockieren. User-agent: GPTBot mit Disallow: / hält OpenAI von deinen Inhalten fern. Aber Achtung: Wer alles blockiert, wird in der neuen Generative Engine Optimization keine Rolle mehr spielen. Keine Citations, keine Erwähnungen, keine KI-Sichtbarkeit.

Das ist das “AI-Agency Paradoxon”: Wir wollen unsere Daten schützen, müssen sie aber zeigen, um relevant zu bleiben.

Dein nächster Schritt

Die robots.txt ist ein mächtiges, wenn auch stumpfes Schwert. Sperre Backend-URLs und Suchergebnisse, aber lass die Finger von Content-Seiten, wenn du nicht genau weißt, was du tust. Nutze professionelle Tools wie SE Ranking, um deine Datei live zu überwachen.

Nutze den Site-Audit von SE Ranking, um deine robots.txt regelmäßig zu validieren und technische Fehler zu finden, bevor sie dein Ranking kosten.

Sicher, dass deine robots.txt korrekt ist?

Ein falscher Klick sperrt Google aus. Ich prüfe dein Setup mit SE Ranking und stelle sicher, dass Rankscale deine KI-Findbarkeit maximiert.

Jetzt robots.txt Check anfragen

? Häufig gestellte Fragen (FAQ)

Wo genau muss die robots.txt Datei auf meinem Server liegen?

Sie muss zwingend im Root-Verzeichnis deiner Domain liegen. Beispiel: https://deinedomain.de/robots.txt – du kannst meine Datei sehr gerne als Referenz nutzen. Wenn sie in einem Unterordner steckt oder einen anderen Namen hat, findet kein Bot sie. Das ist einer der Fehler, die ich in meiner Sprechstunde ständig sehe.

Kann ich mit der robots.txt Seiten aus dem Google-Index entfernen?

Nein, und das ist der häufigste und gefährlichste Irrtum im technischen SEO! Die robots.txt blockiert nur das Crawling – die Seite kann trotzdem im Index bleiben (nur ohne Beschreibung). Wenn du eine URL wirklich aus den Suchergebnissen entfernen willst, musst du das Noindex Meta-Tag setzen. Diesen Unterschied erkläre ich ausführlich im Glossar unter Crawling vs. Indexing.

Wie teste ich, ob meine robots.txt korrekt funktioniert?

Google bietet dafür ein kostenloses Tool in der Google Search Console: Den 'robots.txt Tester'. Dort kannst du einzelne URLs eingeben und prüfen, ob sie blockiert oder erlaubt sind. Außerdem empfehle ich nach jedem Relaunch einen manuellen Check: Ruf einfach deinedomain.de/robots.txt im Browser auf und prüf die Regeln Zeile für Zeile. In meinem Setup blockiere ich klassischerweise nur irrelevante Verzeichnisse (wie Admin-Bereiche) und verlinke natürlich die Sitemap.

Robots.txt

Wichtigste Erkenntnisse

Die Anatomie einer sauberen robots.txt

Die wichtigsten Befehle erklärt:

Der größte Mythos: robots.txt vs. Indexierung

Die robots.txt im Zeitalter der KI (GEO)

Dein nächster Schritt

Sicher, dass deine robots.txt korrekt ist?

Verwandte Begriffe

Nichts mehr verpassen?

Verwandte Begriffe

Crawling vs. Indexing

Generative Engine Optimization (GEO)

Sitemap