SEO Begriffslexikon
Crawling vs. Indexing
Wichtigste Erkenntnisse
- Sequenzieller Prozess: Eine Seite muss erst fehlerfrei gecrawlt werden, bevor sie indexiert werden kann.
- Indexierungs-Kontrolle: Nutze 'noindex' für die Steuerung der Sichtbarkeit, nicht die robots.txt.
- Crawl-Budget Management: Schütze deine Ressourcen vor sinnlosen URLs, um frischen Content schnell ins Ranking zu bringen.
Einer der häufigsten Fehler, den ich als SEO-Berater in Berlin immer wieder in Gesprächen mit Entwicklern, Geschäftsführern und Marketingabteilungen klären muss, ist die konsequente Verwechselung der Begriffe “Crawling” und “Indexing”.
Jörgs SEO-Klartext (LinkedIn Insights)
“70% von AI-SEO ist einfach nur sauberes, klassisches SEO. Handwerk. Keine Magie.”
In meiner täglichen Arbeit muss ich ständig Indexierungs-Blockaden beheben: Seiten, die als “Gecrawlt, aber nicht indexiert” gemeldet werden, oder Kunden, die sich unbewusst selbst blockieren – sei es durch ein vergessenes noindex-Tag vom Relaunch oder eine falsch konfigurierte robots.txt. Die meisten wollen indexiert werden, wissen aber nicht, dass sie sich selbst im Weg stehen.
Um technisches SEO, Fehler in der Google Search Console oder die Effizienz von Website-Relaunches meistern zu können, musst du zwingend begreifen, dass eine Suchmaschine wie ein riesiger Bibliothekar arbeitet, der in zwei völlig abgetrennten, sequenziellen Phasen agiert. Mit dem Index-Monitoring von Rankscale kannst du deine Indexierung und AI-Sichtbarkeit im Auge behalten. Wer diesen Unterschied verstanden hat, eliminiert spielend leicht 80 Prozent aller kritischen Website-Sichtbarkeits-Probleme.
Phase 1: Das Crawling (Das Entdecken & Lesen)
Das Crawling ist rein methodisch gesehen ein automatisierter Download-Prozess.
Google schickt winzige Programme (die “Googlebots”) durch das extrem verbundene Netz des Internets. Diese Kriechtiere navigieren fast ausschließlich entlang von den uns bekannten Hyperlinks (dem sogenannten Linkjuice).
Finden sie eine neue HTML-URL, fragen sie diese beim Webserver an, warten geduldig bis der Server eine Antwort schickt (Server Return Codes im Idealfall: HTTP 200) und laden den Quellcode der Seite (oder die Bilder, das JavaScript und die CSS-Stylesheets) komplett herunter.
Crawling vs. Indexing
| Funktion / Tool | Crawling (Entdecken) | Empfohlen Indexing (Verstehen) |
|---|---|---|
| Akteur | Googlebot (Crawler) | Indexier-Algorithmus |
| Ziel | Seite finden & HTML laden | Seite verstehen & bewerten |
| Steuerung | robots.txt (Betreten) | Meta-Robots (Indexieren) |
| Voraussetzung | Link oder Sitemap | Erfolgreiches Crawling |
| Ergebnis | Daten auf Google-Servern | Seite erscheint in der Suche |
Der einzige Mechanismus, der das Crawling einer URL aktiv vorab verbieten kann, ist die Domain-weite Steuerungsdatei robots.txt. Sieht der Crawler darin in der Befehlszeile ein Disallow: /geheimes-verzeichnis/, dann betritt er diesen Pfad gar nicht erst. Er dreht im Vorgarten um und speichert keinen Fetzen Code von dort auf den Google-Servern. Mehr dazu im Detail in meinem Fachartikel zur Robots.txt.
Crawl-Budget
Das massenhafte Downloaden von Millionen URLs kostet Google jeden Tag unfassbar viel Strom, Cache-Speicher und Geld. Jede Seite besitzt daher ein “Crawl Budget” – eine fiktive Grenze an täglichen Abrufen, nach der sich Google abmeldet. Ertränkt sich dein Crawl-Budget in unsinnigen URLs (Faceted Navigation, Parameter, Session-IDs, Tausende leere Tag-Seiten), crawlt Google nie deine neuen, hochwertigen Beiträge. Die Effizienz deines Crawlings ist das Herz der OnPage-Optimierung!

Phase 2: Das Indexing (Das Einordnen & Bewerten)
Hat der Bot die Seite gecrawlt (Phase 1 abgehakt), reicht er das rohe Datenpaket an den Indexierungs-Algorithmus weiter. Das Indexing ist der intellektuelle, ressourcenfressende Prozess von Google (oder KI-Maschinen).
Hier wird das heruntergeladene HTML nun maschinell “verstanden” (geparst und gerendert).
Der Algorithmus extrahiert die internen Verlinkungen, baut den DOM (Document Object Model) Baum auf, wertet JavaScript wie moderne Core Web Vitals Animationen aus und analysiert den auf der Seite gefundenen Text hinsichtlich Themenrelevanz, Duplicate Content, Spammigkeit und Qualität der Information (E-E-A-T).
Nur wenn dieser Indexer entscheidet: “Ja, das ist ein absolut fantastisches, relevantes und einzigartiges Dokument, das den suchenden Menschen da draußen massiv helfen wird”, nimmt er es ab in den elitären Kreis der aufgenommenen Suchergebnisse ab. Diese riesige, von Google angelegte Bibliothek aller weltweiten Top-Inhalte, nennt man “den Index”.
Der Türsteher: Meta-Tag “Noindex”
Oft musst du Seiten erstellen, die technisch perfekt sind, aber trotzdem nichts, absolut gar nichts im Google-Index verloren haben (z. B. “Danke für Ihre Anfrage”-Seiten, doppelte Artikel oder kleine AGB-Hinweise).
Hierzu fügst du in den absoluten <head>-Bereich deines HTML-Codes das Meta-Tag <meta name="robots" content="noindex"> ein. Alternativ funktioniert das auch über den x-robots-Tag im Server-Header.
Der Ablauf sieht dann zwingend wie folgt aus:
- Der Crawler ruft die Seite ab (Phase 1 erfolgreich!).
- Er gibt sie den Indexer.
- Der Indexer fängt an zu rendern, liest im Head
"noindex", stoppt sofort jegliche Einordnung und schmeißt das Dokument physisch sofort und dauerhaft wieder in den Müllschlucker.
Das tödliche Paradoxon: Sperren verboten!
Viele Webseitenbetreiber begehen den folgenschwersten Fehler der Indexierungskontrolle, weil sie Crawling mit Indexing verwechseln.
Sie haben eine irrelevante Seite, die bereits aus Versehen von Google gefunden wurde und bei Suchanfragen als hässliches Trefferbild auftaucht. Die typische Reaktion in der Not: “Ich schreibe die Seite sofort auf Disallow: in der robots.txt! Dann ist sie weg.”
Was wirklich passiert: Du baust einen dicken Betonwall um die Seite. Das bedeutet: Google darf ab morgen in Phase 1 (Crawling) nicht mehr herunterladen! Das klingt gut, aber gleichzeitig hat der Indexer diesen Content seit Wochen tief in Phase 2 in seinem großen Indexbuch aufgeführt.
Wie soll der Indexer das Buch jetzt aktualisieren und die Seite aus seinen Suchergebnissen löschen? Er müsste die Seite ansteuern, neu scrapen, und sehen dass die Seite weg ist (Status 404) oder mittlerweile den hart ersehnten "noindex" Tag im Header trägt. Doch das darf er nicht mehr. Sein Crawler scheitert schon meilenweit vorher am Eintritt wegen der robots.txt.
Man sperrt den Bot logischerweise rigoros aus und friert damit den fehlerhaften Zustand im Google-Index permanent ein. Die Folge: Man rankt oft für Monate fehlerhaft weiter, und Tools wie Sistrix schlagen im Sichtbarkeitsindex Alarm.
Wer diese Trennschärfe im Projektmanagement begreift, dem gehört das Fundament einer robusten Online-Reputation ab der ersten Zeile Code. Nutze den Site-Audit von SE Ranking, um Indexierungsfehler frühzeitig zu erkennen.
Dein nächster Schritt
Begreife Crawling als technischen Zugang und Indexing als inhaltliche Qualifizierung. Wer beides sauber trennt, steuert seine Sichtbarkeit punktgenau.
ALOHA 🌻
Gecrawlt, aber nicht indexiert?
Ich löse deine Indexierungs-Blockaden und sorge für Sichtbarkeit. Mit SE Ranking finden wir die Fehler, mit Rankscale optimieren wir für KI-Systeme.
Jetzt Index-Audit anfragen- Lese-Tipp: Alles über die Robots.txt
- Lese-Tipp: Was ist Linkjuice?
- Lese-Tipp: Was ist GEO?
- Lese-Tipp: Sitemap Optimierung
Was bedeutet es, wenn in der Search Console 'Gecrawlt, aber nicht indexiert' steht?
Wie lange dauert es vom Crawling bis zur Indexierung einer neuen Seite?
Ich habe versehentlich meine Seiten auf noindex gesetzt – wie schnell kann ich das reparieren?
Verwandte Begriffe
Nichts mehr verpassen?
Folge mir auf LinkedIn für tägliche SEO-Nuggets und diskutiere mit anderen Experten.
LinkedIn-Profil besuchen →Verwandte Begriffe
Linkjuice (Linkkraft)
Linkjuice erklärt: Die Verteilung von Ranking-Power durch interne und externe Verlinkungen. So optimierst du deine Linkstruktur. ALOHA! 🌻
GlossarRobots.txt
Die robots.txt steuert, welche Crawler, Suchmaschinen und KI-Agenten auf welche Verzeichnisse deiner Website zugreifen dürfen. ALOHA! 🌻
Glossar301 vs. 302 Redirects: Dein SEO-Nachsendeauftrag
301 vs. 302 Redirects einfach erklärt. Warum der 301er dein Linkjuice-Retter ist und wann du beim Relaunch oder Domain-Wechsel aufpassen musst. ALOHA! 🌻