Zurück zum Glossar
4 Min. Lesezeit

SEO Begriffslexikon • Zuletzt aktualisiert: 22. April 2026

Robots.txt: Anweisungen für Suchmaschinen-Crawler

robots.txt 3D Infografik - Die Steuerung der Suchmaschinen-Crawler

Wichtigste Erkenntnisse

  • Steuerzentrale für Crawler: Die Datei regelt den Zugriff von Bots auf deine Verzeichnisse.
  • Keine Index-Garantie: Disallow in der robots.txt verhindert nicht die Indexierung, nur das Crawling.
  • KI-Wächter: Über die robots.txt kannst du gezielt KI-Bots wie GPTBot blockieren oder erlauben.

Moin!

Die robots.txt ist das Türschild deiner Website für die Google-Bots. Du sagst ihnen damit: “Hier dürft ihr rein, da bitte nicht.” Klingt harmlos? Ist es aber nicht. Ein kleiner Fehler hier und deine wichtigste Landingpage verschwindet komplett aus dem Google-Index.

Jörgs SEO-Klartext (LinkedIn Insights)

"Die robots.txt ist kein Sicherheits-Tool. Sie ist eine Empfehlung an die Crawler. Wer sensible Daten verstecken will, braucht Passwörter oder 'noindex', kein Türschild."

Bevor auch nur ein einziger Crawler deinen eigentlichen Code anschaut, liest er diese Datei. Im Rahmen meiner Arbeit als SEO Freelancer in Berlin ist die Prüfung der robots.txt daher zwingend Schritt 1 bei jedem technischen Audit.

Die Anatomie einer sauberen robots.txt

Das Regelwerk dahinter nennt sich Robots Exclusion Protocol (REP). Es ist ein herrenloser Standard – seriöse Bots halten sich strikt daran, bösartige Spam-Scraper ignorieren es komplett.

User-agent: *

Disallow: /internes-backend/

Sitemap: https://deinedomain.de/sitemap.xml

Die knallharten Befehle:

  1. User-agent: An wen richtest du dich? Das Sternchen (*) gilt für alle Crawler weltweit.
  2. Disallow: Der Blocker. Er verbietet das Crawling eines Verzeichnisses.
  3. Allow: Die Ausnahme. Erlaubt den Zugriff auf spezifische Dateien tief in einem gesperrten Ordner.
  4. Sitemap: Der Wegweiser zu deiner Sitemap. Absoluter Pflicht-Eintrag!

Das größte Missverständnis: robots.txt vs. Indexierung

Ich sehe es wöchentlich in meiner SEO Sprechstunde: Kunden wollen eine peinliche Seite aus Google rausbekommen und blockieren sie in der robots.txt.

Das ist grob fahrlässig! Ein Disallow verhindert nur, dass der Bot die Seite liest (Crawling). Wenn andere URLs auf diese Seite verlinken, führt Google sie trotzdem im Index auf – oft mit einem kryptischen “Für diese Seite sind keine Informationen verfügbar”.

Willst du eine Seite wirklich und endgültig aus den Google-Ergebnissen entfernen? Dann musst du das Meta-Tag Noindex im HTML-Code setzen. Und damit der Bot das Noindex-Tag überhaupt lesen kann, darf die Seite in der robots.txt eben nicht blockiert sein!

Die robots.txt im KI-Zeitalter (GEO)

Ganz neues Spielfeld: Du kannst KI-Trainings-Bots (Scraper für LLMs) über die robots.txt aussperren. User-agent: GPTBot kombiniert mit Disallow: / hält OpenAI davon ab, deine Texte fürs Training zu nutzen.

Aber Vorsicht: Das ist das “AI-Agency Paradoxon”. Wenn du alle KI-Modelle aussperrst, wirst du in der Generative Engine Optimization (GEO) künftig keine Rolle spielen. Keine Erwähnungen, keine Citations, null KI-Sichtbarkeit für deine Entität. Denk gut nach, bevor du hier dicht machst.

Mein Tacheles-Rat für dich

Fass die robots.txt nur an, wenn du exakt weißt, was du tust. Sperre sinnlose Backend-URLs, interne Such-Parameter und Admin-Bereiche. Lass den Content in Ruhe.

Ich prüfe diese sensiblen Setups täglich mit professionellen Werkzeugen wie SE Ranking. Und mit Rankscale stellen wir sicher, dass du die richtigen KI-Crawler nicht versehentlich aussperrst. Halte die Datei sauber, kurz und fehlerfrei.

ALOHA! Jörg


Ist deine robots.txt ein Risiko?

Ein falscher Slash sperrt Google aus. Ich auditiere dein technisches Setup, behebe fatale Fehler und stelle deine Crawlbarkeit sicher.

Jetzt Tech-Audit anfragen

Verwandte Begriffe

? Häufig gestellte Fragen (FAQ)
Wo genau muss die robots.txt Datei auf meinem Server liegen?
Sie muss zwingend im Root-Verzeichnis deiner Domain liegen. Beispiel: https://deinedomain.de/robots.txt – du kannst meine Datei sehr gerne als Referenz nutzen. Wenn sie in einem Unterordner steckt oder einen anderen Namen hat, findet kein Bot sie. Das ist einer der Fehler, die ich in meiner Sprechstunde ständig sehe.
Kann ich mit der robots.txt Seiten aus dem Google-Index entfernen?
Nein, und das ist der häufigste und gefährlichste Irrtum im technischen SEO! Die robots.txt blockiert nur das Crawling – die Seite kann trotzdem im Index bleiben (nur ohne Beschreibung). Wenn du eine URL wirklich aus den Suchergebnissen entfernen willst, musst du das Noindex Meta-Tag setzen. Diesen Unterschied erkläre ich ausführlich im Glossar unter Crawling vs. Indexing.
Wie teste ich, ob meine robots.txt korrekt funktioniert?
Google bietet dafür ein kostenloses Tool in der Google Search Console: Den 'robots.txt Tester'. Dort kannst du einzelne URLs eingeben und prüfen, ob sie blockiert oder erlaubt sind. Außerdem empfehle ich nach jedem Relaunch einen manuellen Check: Ruf einfach deinedomain.de/robots.txt im Browser auf und prüf die Regeln Zeile für Zeile. In meinem Setup blockiere ich klassischerweise nur irrelevante Verzeichnisse (wie Admin-Bereiche) und verlinke natürlich die Sitemap.

Nichts mehr verpassen?

Folge mir auf LinkedIn für tägliche SEO-Nuggets und diskutiere mit anderen Experten.

LinkedIn-Profil besuchen →
Jörg Zimmer - SEO & SEA Experte

Über den Autor: Jörg Zimmer

Jörg Zimmer ist SEO- und SEA-Freelancer aus Berlin Spandau mit über 20 Jahren Erfahrung. Er hilft Unternehmen dabei, in einer KI-getriebenen Welt sichtbar zu bleiben und nachhaltig Suchtraffic aufzubauen.