Robots.txt: Anweisungen für Suchmaschinen-Crawler

Wichtigste Erkenntnisse

Steuerzentrale für Crawler: Die Datei regelt den Zugriff von Bots auf deine Verzeichnisse.
Keine Index-Garantie: Disallow in der robots.txt verhindert nicht die Indexierung, nur das Crawling.
KI-Wächter: Über die robots.txt kannst du gezielt KI-Bots wie GPTBot blockieren oder erlauben.

robots.txt 3D Infografik - Die Steuerung der Suchmaschinen-Crawler

Moin!

Die robots.txt ist das Türschild deiner Website für die Google-Bots. Du sagst ihnen damit: “Hier dürft ihr rein, da bitte nicht.” Klingt harmlos? Ist es aber nicht. Ein kleiner Fehler hier und deine wichtigste Landingpage verschwindet komplett aus dem Google-Index.

Jörgs SEO-Klartext (LinkedIn Insights)

"Die robots.txt ist kein Sicherheits-Tool. Sie ist eine Empfehlung an die Crawler. Wer sensible Daten verstecken will, braucht Passwörter oder 'noindex', kein Türschild."

Bevor auch nur ein einziger Crawler deinen eigentlichen Code anschaut, liest er diese Datei. Im Rahmen meiner Arbeit als SEO Freelancer in Berlin ist die Prüfung der robots.txt daher zwingend Schritt 1 bei jedem technischen Audit.

Die Anatomie einer sauberen robots.txt

Das Regelwerk dahinter nennt sich Robots Exclusion Protocol (REP). Es ist ein herrenloser Standard – seriöse Bots halten sich strikt daran, bösartige Spam-Scraper ignorieren es komplett.

User-agent: *

Disallow: /internes-backend/

Sitemap: https://deinedomain.de/sitemap.xml

Die knallharten Befehle:

User-agent: An wen richtest du dich? Das Sternchen (*) gilt für alle Crawler weltweit.
Disallow: Der Blocker. Er verbietet das Crawling eines Verzeichnisses.
Allow: Die Ausnahme. Erlaubt den Zugriff auf spezifische Dateien tief in einem gesperrten Ordner.
Sitemap: Der Wegweiser zu deiner Sitemap. Absoluter Pflicht-Eintrag!

Das größte Missverständnis: robots.txt vs. Indexierung

Ich sehe es wöchentlich in meiner SEO Sprechstunde: Kunden wollen eine peinliche Seite aus Google rausbekommen und blockieren sie in der robots.txt.

Das ist grob fahrlässig! Ein Disallow verhindert nur, dass der Bot die Seite liest (Crawling). Wenn andere URLs auf diese Seite verlinken, führt Google sie trotzdem im Index auf – oft mit einem kryptischen “Für diese Seite sind keine Informationen verfügbar”.

Willst du eine Seite wirklich und endgültig aus den Google-Ergebnissen entfernen? Dann musst du das Meta-Tag Noindex im HTML-Code setzen. Und damit der Bot das Noindex-Tag überhaupt lesen kann, darf die Seite in der robots.txt eben nicht blockiert sein!

Die robots.txt im KI-Zeitalter (GEO)

Ganz neues Spielfeld: Du kannst KI-Trainings-Bots (Scraper für LLMs) über die robots.txt aussperren. User-agent: GPTBot kombiniert mit Disallow: / hält OpenAI davon ab, deine Texte fürs Training zu nutzen.

Aber Vorsicht: Das ist das “AI-Agency Paradoxon”. Wenn du alle KI-Modelle aussperrst, wirst du in der Generative Engine Optimization (GEO) künftig keine Rolle spielen. Keine Erwähnungen, keine Citations, null KI-Sichtbarkeit für deine Entität. Denk gut nach, bevor du hier dicht machst.

Mein Tacheles-Rat für dich

Fass die robots.txt nur an, wenn du exakt weißt, was du tust. Sperre sinnlose Backend-URLs, interne Such-Parameter und Admin-Bereiche. Lass den Content in Ruhe.

Ich prüfe diese sensiblen Setups täglich mit professionellen Werkzeugen wie SE Ranking. Und mit Rankscale stellen wir sicher, dass du die richtigen KI-Crawler nicht versehentlich aussperrst. Halte die Datei sauber, kurz und fehlerfrei.

ALOHA! Jörg

Ist deine robots.txt ein Risiko?

Ein falscher Slash sperrt Google aus. Ich auditiere dein technisches Setup, behebe fatale Fehler und stelle deine Crawlbarkeit sicher.

Jetzt Tech-Audit anfragen

Robots.txt: Anweisungen für Suchmaschinen-Crawler

Wichtigste Erkenntnisse

Die Anatomie einer sauberen robots.txt

Die knallharten Befehle:

Das größte Missverständnis: robots.txt vs. Indexierung

Die robots.txt im KI-Zeitalter (GEO)

Mein Tacheles-Rat für dich

Ist deine robots.txt ein Risiko?

Verwandte Begriffe

Verwandte Begriffe

Nichts mehr verpassen?

Verwandte Begriffe

Crawling vs. Indexing

Generative Engine Optimization (GEO): SEO für KI 2026

Sitemap: XML & HTML Formate für Suchmaschinen