Was ist eine robots.txt? Deine Hausordnung für Bots & Crawler!
Sie ist die erste Datei, die ein Suchmaschinen-Crawler auf deiner Seite sucht. Sie gibt klare Anweisungen, welche Bereiche besucht werden dürfen und welche privat bleiben sollen.
1. Der Bot kommt
2. Sucht /robots.txt
3. Liest die Regeln
4. Besucht die Seite
Warum sie für dich so wertvoll ist
Privatsphäre & Ordnung
Schütze private Bereiche wie den Admin-Login oder unfertige Seiten vor neugierigen Blicken.
Fokus & Effizienz
Lenke die knappe Zeit der Crawler (Crawl-Budget) auf deine wichtigsten Inhalte und spare Ressourcen.
Keine Duplikate
Verhindere, dass technische URL-Varianten (z.B. mit Filtern) als doppelter Inhalt gewertet werden.
Ein etablierter Standard
Die `robots.txt` ist kein Nischenthema. Fast jede professionelle Website nutzt sie zur Steuerung der Crawler. Du bist also in bester Gesellschaft.
In 4 Schritten zur eigenen Datei
Die Sprache der Roboter: 4 wichtige Befehle
Disallow:
Verbietet den Zugriff auf einen Pfad. `Disallow: /privat/`
Allow:
Erlaubt den Zugriff als Ausnahme zu einer `Disallow`-Regel.
Praxisbeispiele: Gängige Konfigurationen
Offene Tür (Alles erlauben)
WordPress Standard
Baustelle (Alles sperren)
Dateitypen ausschließen
Der wichtigste Unterschied: `Disallow` vs. `noindex`
robots.txt: Disallow
"Bitte nicht betreten!"
Verbietet das Crawlen (Lesen) der Seite. Die URL kann aber unter Umständen trotzdem im Index landen (ohne Beschreibung).
Meta-Tag: noindex
"Bitte nicht anzeigen!"
Erlaubt das Crawlen, aber verbietet die Aufnahme in die Suchergebnisse. Dies ist der sichere Weg, um Inhalte aus Google fernzuhalten.