SEO Begriffslexikon • Zuletzt aktualisiert: 22. April 2026
Robots.txt: Anweisungen für Suchmaschinen-Crawler
Wichtigste Erkenntnisse
- Steuerzentrale für Crawler: Die Datei regelt den Zugriff von Bots auf deine Verzeichnisse.
- Keine Index-Garantie: Disallow in der robots.txt verhindert nicht die Indexierung, nur das Crawling.
- KI-Wächter: Über die robots.txt kannst du gezielt KI-Bots wie GPTBot blockieren oder erlauben.
Moin!
Die robots.txt ist das Türschild deiner Website für die Google-Bots. Du sagst ihnen damit: “Hier dürft ihr rein, da bitte nicht.” Klingt harmlos? Ist es aber nicht. Ein kleiner Fehler hier und deine wichtigste Landingpage verschwindet komplett aus dem Google-Index.
Jörgs SEO-Klartext (LinkedIn Insights)
"Die robots.txt ist kein Sicherheits-Tool. Sie ist eine Empfehlung an die Crawler. Wer sensible Daten verstecken will, braucht Passwörter oder 'noindex', kein Türschild."
Bevor auch nur ein einziger Crawler deinen eigentlichen Code anschaut, liest er diese Datei. Im Rahmen meiner Arbeit als SEO Freelancer in Berlin ist die Prüfung der robots.txt daher zwingend Schritt 1 bei jedem technischen Audit.
Die Anatomie einer sauberen robots.txt
Das Regelwerk dahinter nennt sich Robots Exclusion Protocol (REP). Es ist ein herrenloser Standard – seriöse Bots halten sich strikt daran, bösartige Spam-Scraper ignorieren es komplett.
User-agent: *
Disallow: /internes-backend/
Sitemap: https://deinedomain.de/sitemap.xml
Die knallharten Befehle:
User-agent:An wen richtest du dich? Das Sternchen (*) gilt für alle Crawler weltweit.Disallow:Der Blocker. Er verbietet das Crawling eines Verzeichnisses.Allow:Die Ausnahme. Erlaubt den Zugriff auf spezifische Dateien tief in einem gesperrten Ordner.Sitemap:Der Wegweiser zu deiner Sitemap. Absoluter Pflicht-Eintrag!
Das größte Missverständnis: robots.txt vs. Indexierung
Ich sehe es wöchentlich in meiner SEO Sprechstunde: Kunden wollen eine peinliche Seite aus Google rausbekommen und blockieren sie in der robots.txt.
Das ist grob fahrlässig! Ein Disallow verhindert nur, dass der Bot die Seite liest (Crawling). Wenn andere URLs auf diese Seite verlinken, führt Google sie trotzdem im Index auf – oft mit einem kryptischen “Für diese Seite sind keine Informationen verfügbar”.
Willst du eine Seite wirklich und endgültig aus den Google-Ergebnissen entfernen? Dann musst du das Meta-Tag Noindex im HTML-Code setzen. Und damit der Bot das Noindex-Tag überhaupt lesen kann, darf die Seite in der robots.txt eben nicht blockiert sein!
Die robots.txt im KI-Zeitalter (GEO)
Ganz neues Spielfeld: Du kannst KI-Trainings-Bots (Scraper für LLMs) über die robots.txt aussperren.
User-agent: GPTBot kombiniert mit Disallow: / hält OpenAI davon ab, deine Texte fürs Training zu nutzen.
Aber Vorsicht: Das ist das “AI-Agency Paradoxon”. Wenn du alle KI-Modelle aussperrst, wirst du in der Generative Engine Optimization (GEO) künftig keine Rolle spielen. Keine Erwähnungen, keine Citations, null KI-Sichtbarkeit für deine Entität. Denk gut nach, bevor du hier dicht machst.
Mein Tacheles-Rat für dich
Fass die robots.txt nur an, wenn du exakt weißt, was du tust. Sperre sinnlose Backend-URLs, interne Such-Parameter und Admin-Bereiche. Lass den Content in Ruhe.
Ich prüfe diese sensiblen Setups täglich mit professionellen Werkzeugen wie SE Ranking. Und mit Rankscale stellen wir sicher, dass du die richtigen KI-Crawler nicht versehentlich aussperrst. Halte die Datei sauber, kurz und fehlerfrei.
ALOHA! Jörg
Ist deine robots.txt ein Risiko?
Ein falscher Slash sperrt Google aus. Ich auditiere dein technisches Setup, behebe fatale Fehler und stelle deine Crawlbarkeit sicher.
Jetzt Tech-Audit anfragenVerwandte Begriffe
Wo genau muss die robots.txt Datei auf meinem Server liegen?
Kann ich mit der robots.txt Seiten aus dem Google-Index entfernen?
Wie teste ich, ob meine robots.txt korrekt funktioniert?
Nichts mehr verpassen?
Folge mir auf LinkedIn für tägliche SEO-Nuggets und diskutiere mit anderen Experten.
LinkedIn-Profil besuchen →Verwandte Begriffe
Crawling vs. Indexing
Crawling und Indexing sind die zwei grundlegenden Backend-Prozesse jeder Suchmaschine. Ihre Unterscheidung ist existenziell zur Fehlerbehebung im SEO.
GlossarGenerative Engine Optimization (GEO): SEO für KI 2026
GEO (2026): Werde zur unumstößlichen Antwortquelle in ChatGPT, Perplexity & Google AI Overviews. Erfahre alles über RAG, Grounding & AI-Readiness. ALOHA!
GlossarSitemap: XML & HTML Formate für Suchmaschinen
Eine Sitemap ist der Wegweiser für Google. Sie hilft Crawlern, alle wichtigen Seiten deiner Website schnell und effizient zu finden.