← Zurück zum Blog
Fabian van TilFabian van Til··9 Min. Lesezeit

robots.txt, sitemap.xml und llms.txt: Die drei Dateien, die jede Website 2026 braucht

robots.txt kontrolliert den Crawler-Zugang. sitemap.xml kartiert Ihre URLs. llms.txt erklärt Ihre Website der KI. Erfahren Sie, was jede Datei tut, wie sie zusammenarbeiten und wie Sie alle drei für KI-Sichtbarkeit einrichten.

Drei Dateien, die jede Website braucht

Zwei Jahrzehnte lang verließen sich Websites auf zwei Root-Level-Dateien für die Kommunikation mit Suchmaschinen: robots.txt und sitemap.xml. Eine kontrolliert den Zugang. Die andere kartiert Inhalte. Zusammen sagen sie Crawlern, wohin sie gehen und was sie indexieren sollen.

2024 kam eine dritte Datei hinzu: llms.txt. Diese Datei kontrolliert keinen Zugang und kartiert keine URLs. Sie erklärt Bedeutung. Sie teilt KI-Sprachmodellen mit, was Ihre Website ist, welche Themen sie abdeckt und wie Ihre Inhalte verstanden werden sollen.

Wenn Sie 2026 eine Website betreiben und sowohl für traditionelle Suchmaschinen als auch für KI-Systeme wie ChatGPT, Perplexity und Google Gemini sichtbar sein möchten, brauchen Sie alle drei Dateien korrekt konfiguriert.

robots.txt: Crawler-Zugang kontrollieren

Was robots.txt macht

robots.txt ist eine Klartextdatei im Domain-Stammverzeichnis (ihreseite.de/robots.txt), die Web-Crawlern mitteilt, welche Bereiche Ihrer Website sie besuchen dürfen und welche sie meiden sollen. Sie ist seit 1994 ein Web-Standard.

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

Sitemap: https://ihreseite.de/sitemap.xml

robots.txt für KI-Crawler konfigurieren

KI-Crawler haben eigene User-Agents. Wenn Sie kontrollieren möchten, wie KI-Systeme auf Ihre Website zugreifen, können Sie spezifische Regeln hinzufügen:

User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/

User-agent: ClaudeBot
Allow: /
Disallow: /admin/

User-agent: PerplexityBot
Allow: /
Disallow: /admin/

Bekannte KI-Crawler-User-Agents (Stand 2026):

  • GPTBot: OpenAIs Web-Crawler für ChatGPT
  • ChatGPT-User: ChatGPTs Browse-Modus
  • ClaudeBot: Anthropics Web-Crawler für Claude
  • PerplexityBot: Perplexitys Such-Crawler
  • Google-Extended: Googles KI-Training-Crawler

Ein häufiger Fehler: alle KI-Crawler blockieren. Wenn Sie GPTBot blockieren, kann ChatGPT Ihre Inhalte nicht abrufen. Ihre Wettbewerber, die den Zugang erlauben, werden stattdessen zitiert.

sitemap.xml: Ihre Inhalte kartieren

Was sitemap.xml macht

sitemap.xml ist eine XML-Datei, die die URLs Ihrer Website mit Metadaten auflistet: wann jede Seite zuletzt geändert wurde, wie häufig sie sich ändert und ihre relative Priorität.

sitemap.xml Best Practices

  • Nur kanonische URLs einbeziehen: Keine duplizierten Seiten oder paginierten URLs.
  • lastmod korrekt halten: Nur aktualisieren, wenn sich der Seiteninhalt tatsächlich ändert.
  • Sitemap-Index-Dateien für große Websites: Bei mehr als 50.000 URLs aufteilen.
  • noindex-Seiten ausschließen: Seiten mit noindex-Tag gehören nicht in die Sitemap.
  • In robots.txt referenzieren: Sitemap:-Direktive hinzufügen.

llms.txt: Die neue dritte Datei für KI-Verständnis

Was llms.txt macht

llms.txt ist eine Markdown-Datei im Domain-Stammverzeichnis, die KI-Sprachmodellen eine strukturierte Zusammenfassung Ihrer Website gibt. Wo robots.txt den Zugang kontrolliert und sitemap.xml URLs kartiert, erklärt llms.txt den Kontext.

Für eine vollständige Aufschlüsselung des llms.txt-Formats lesen Sie unseren llms.txt-Format-Spezifikation-Leitfaden.

Vergleich: Was jede Datei kontrolliert

robots.txtsitemap.xmlllms.txt
ZweckZugriffskontrolleURL-EntdeckungSemantischer Kontext
FormatEigene DirektivenXMLMarkdown
Teilt Crawlern mitWohin sie dürfenWelche Seiten existierenWas die Website bedeutet
ZielgruppeAlle Web-CrawlerSuchmaschinen-BotsKI-Sprachmodelle
Seit199420052024

Wie die drei Dateien zusammenarbeiten

  1. robots.txt beantwortet: "Darf ich rein?" Sie setzt die Grenzen. Bevor ein Crawler Inhalte liest, prüft er robots.txt.
  2. sitemap.xml beantwortet: "Wo soll ich schauen?" Sobald ein Crawler Zugang hat, zeigt die Sitemap das gesamte Seiteninventar.
  3. llms.txt beantwortet: "Was bedeutet das alles?" Nachdem ein KI-System weiß, welche Seiten existieren, liefert llms.txt die interpretative Ebene.

Alle drei für KI-Sichtbarkeit einrichten

Schritt 1: robots.txt prüfen

Überprüfen Sie Ihre aktuelle robots.txt. Stellen Sie sicher, dass KI-Crawler nicht von Ihren öffentlichen Inhalten blockiert werden.

Schritt 2: sitemap.xml validieren

Bestätigen Sie, dass Ihre Sitemap alle wichtigen öffentlichen Seiten mit korrekten lastmod-Daten enthält.

Schritt 3: llms.txt erstellen

Dies ist die Datei, die den meisten Websites noch fehlt. Sie können unseren kostenlosen Generator nutzen, um eine automatisch zu erstellen. Für die vollständige Spezifikation lesen Sie unseren kompletten llms.txt-Leitfaden.

Schritt 4: Das Gesamtsetup testen

Besuchen Sie alle drei Dateien im Browser. Testen Sie dann mit KI-Systemen, ob die Antworten Ihre llms.txt-Rahmung widerspiegeln.

Was passiert, wenn Sie eine auslassen

  • Keine robots.txt: Alle Crawler greifen auf alles zu, einschließlich Seiten, die Sie privat halten möchten.
  • Keine sitemap.xml: Suchmaschinen und KI-Crawler finden Ihre Seiten trotzdem, aber langsamer.
  • Keine llms.txt: KI-Systeme müssen Ihre Markenidentität aus verstreuten Signalen erschließen. Ihre Darstellung wird weniger genau sein.

Alle drei Dateien erfordern minimalen Aufwand. robots.txt und sitemap.xml sind wahrscheinlich bereits vorhanden. llms.txt ist die Datei, die die meisten Unternehmen noch hinzufügen müssen. Erstellen Sie Ihre jetzt und vervollständigen Sie das Set.

Fabian van Til

Fabian van Til

Gründer, Akravo — KI-Sichtbarkeitsstratege

Fabian van Til ist KI-Sichtbarkeitsstratege und E-Commerce-Unternehmer. Er hat eine spezialisierte SEO-Agentur aufgebaut und verkauft, mehrere Marken skaliert und 2024 festgestellt, dass seine eigenen Marken in der KI-Suche unsichtbar waren. Er forschte monatelang und gruendete daraus Akravo.

Möchten Sie AI SEO für Ihr Unternehmen umsetzen?

Gespräch buchen