SEO Begriffslexikon
Robots.txt
Wichtigste Erkenntnisse
- Steuerzentrale für Crawler: Die Datei regelt den Zugriff von Bots auf deine Verzeichnisse.
- Keine Index-Garantie: Disallow in der robots.txt verhindert nicht die Indexierung, nur das Crawling.
- KI-Wächter: Über die robots.txt kannst du gezielt KI-Bots wie GPTBot blockieren oder erlauben.
Moin!
Die robots.txt ist der Türsteher deiner Website. Sie ist eine einfache Textdatei, die im Hauptverzeichnis deiner Domain liegt und den Suchmaschinen-Crawlern (Googlebot) sagt: “Hier darfst du rein, und dort ist der Zutritt verboten.”
Es ist eine extrem simple Textdatei, aber lass dich nicht täuschen: Ein kleiner Tippfehler hier kann deine gesamte Online-Präsenz vernichten.
Jörgs SEO-Klartext (LinkedIn Insights)
"Backlinks kaufen? Viel Spaß beim Russisch Roulette mit deinem Business. Bau lieber eine Plattform, die so gut ist, dass die Leute freiwillig auf dich verlinken."
Bevor der Googlebot oder ein moderner KI-Crawler deine eigentliche Seite sieht, checkt er diese Datei. Ein kleiner Fehler in dieser Datei kann dazu führen, dass deine gesamte Website aus Google verschwindet. Mit Rankscale kannst du überwachen, ob deine robots.txt die Sichtbarkeit für KI-Suchmaschinen unbeabsichtigt einschränkt. Hier ist Tacheles gefragt: Wer nicht weiß, was er tut, sollte die Finger von der robots.txt lassen.
Im Rahmen meiner täglichen Arbeit als SEO Freelancer in Berlin ist der Blick in die robots.txt daher immer Schritt Eins bei jedem Audit.
Die Anatomie einer sauberen robots.txt
Das Regelwerk dahinter nennt sich Robots Exclusion Protocol (REP). Es ist ein herrenloser Standard – seriöse Bots halten sich dran, die bösen Skripte ignorieren es.
User-agent: *
Disallow: /internes-backend/
Sitemap: https://deinedomain.de/sitemap.xml
Die wichtigsten Befehle erklärt:
User-agent:An wen richtet sich die Regel? Das Sternchen (*) gilt für alle.Disallow:Der “Blocker”. Er verbietet das Crawling eines Verzeichnisses.Allow:Die Ausnahme von der Regel. Erlaubt Zugriff auf Dateien in einem gesperrten Ordner.Sitemap:Der Wegweiser zum Inhaltsverzeichnis deiner Seite. Gehört in jede gute Datei.
Der größte Mythos: robots.txt vs. Indexierung
Ich sehe es immer wieder in meiner SEO Sprechstunde: Kunden wollen eigentlich, dass ihre Seite indexiert wird, blockieren sich aber versehentlich selbst über die robots.txt. Oft passiert das bei Relaunchs, wenn das Staging-Setup auf den Live-Server übertragen wird und die alte Sperre mitkommt.
Die Wahrheit: Disallow verhindert nur, dass der Bot die Seite herunterlädt.
Wenn andere Seiten (über Linkjuice) darauf verlinken, führt Google die URL trotzdem im Index – nur ohne Beschreibung. Das sieht furchtbar aus und schadet deinem Branding.
Willst du eine Seite wirklich weg haben? Nutze noindex.
Die robots.txt im Zeitalter der KI (GEO)
Ganz neu: Du kannst gezielt KI-Trainings-Bots blockieren.
User-agent: GPTBot mit Disallow: / hält OpenAI von deinen Inhalten fern.
Aber Achtung: Wer alles blockiert, wird in der neuen Generative Engine Optimization keine Rolle mehr spielen. Keine Citations, keine Erwähnungen, keine KI-Sichtbarkeit.
Das ist das “AI-Agency Paradoxon”: Wir wollen unsere Daten schützen, müssen sie aber zeigen, um relevant zu bleiben.
Dein nächster Schritt
Die robots.txt ist ein mächtiges, wenn auch stumpfes Schwert.
Sperre Backend-URLs und Suchergebnisse, aber lass die Finger von Content-Seiten, wenn du nicht genau weißt, was du tust.
Nutze professionelle Tools wie SE Ranking, um deine Datei live zu überwachen.
Nutze den Site-Audit von SE Ranking, um deine robots.txt regelmäßig zu validieren und technische Fehler zu finden, bevor sie dein Ranking kosten.
Sicher, dass deine robots.txt korrekt ist?
Ein falscher Klick sperrt Google aus. Ich prüfe dein Setup mit SE Ranking und stelle sicher, dass Rankscale deine KI-Findbarkeit maximiert.
Jetzt robots.txt Check anfragenWo genau muss die robots.txt Datei auf meinem Server liegen?
Kann ich mit der robots.txt Seiten aus dem Google-Index entfernen?
Wie teste ich, ob meine robots.txt korrekt funktioniert?
Verwandte Begriffe
Nichts mehr verpassen?
Folge mir auf LinkedIn für tägliche SEO-Nuggets und diskutiere mit anderen Experten.
LinkedIn-Profil besuchen →Verwandte Begriffe
Crawling vs. Indexing
Crawling und Indexing sind die zwei grundlegenden Backend-Prozesse jeder Suchmaschine. Ihre Unterscheidung ist existenziell zur Fehlerbehebung im SEO.
GlossarGenerative Engine Optimization (GEO)
GEO (Generative Engine Optimization): Die Zukunft von SEO für KI-Suchmaschinen wie ChatGPT & Perplexity. Sei dort sichtbar, wo Nutzer fragen. ALOHA! 🌻
GlossarSitemap
Eine Sitemap ist der Wegweiser für Google. Sie hilft Crawlern, alle wichtigen Seiten deiner Website schnell und effizient zu finden.