robots.txt, sitemap.xml e llms.txt: i tre file di cui ogni sito web ha bisogno nel 2026
robots.txt controlla l'accesso dei crawler. sitemap.xml mappa i tuoi URL. llms.txt spiega il tuo sito all'IA. Scopri cosa fa ogni file, come lavorano insieme e come configurare tutti e tre per la visibilità IA.
Tre file di cui ogni sito web ha bisogno
Per due decenni, i siti web si sono affidati a due file root-level per comunicare con i motori di ricerca: robots.txt e sitemap.xml. Uno controlla l'accesso. L'altro mappa i contenuti.
Nel 2024, un terzo file si è aggiunto: llms.txt. Questo file non controlla l'accesso e non mappa URL. Spiega il significato. Dice ai modelli linguistici IA cos'è il tuo sito, cosa copre e come i tuoi contenuti devono essere compresi.
Se gestisci un sito web nel 2026 e vuoi essere visibile sia ai motori di ricerca tradizionali che ai sistemi IA come ChatGPT, Perplexity e Google Gemini, hai bisogno di tutti e tre i file configurati correttamente.
robots.txt: Controllare l'accesso dei crawler
Cosa fa robots.txt
robots.txt è un file di testo nella root del dominio (tuosito.com/robots.txt) che dice ai web crawler quali parti del sito possono visitare. È uno standard web dal 1994.
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Sitemap: https://tuosito.com/sitemap.xml
Configurare robots.txt per i crawler IA
I crawler IA hanno i propri user agent. Puoi aggiungere regole specifiche:
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/
User-agent: ClaudeBot
Allow: /
Disallow: /admin/
User agent IA noti nel 2026:
- GPTBot: Web crawler di OpenAI per ChatGPT
- ClaudeBot: Web crawler di Anthropic per Claude
- PerplexityBot: Crawler di ricerca di Perplexity
- Google-Extended: Crawler di addestramento IA di Google
Un errore frequente: bloccare tutti i crawler IA. Se blocchi GPTBot, ChatGPT non può accedere ai tuoi contenuti. I tuoi concorrenti che permettono l'accesso verranno citati al tuo posto.
sitemap.xml: Mappare i tuoi contenuti
Cosa fa sitemap.xml
sitemap.xml è un file XML che elenca gli URL del tuo sito con metadati: ultima modifica, frequenza di aggiornamento e priorità relativa.
Best practice per sitemap.xml
- Includere solo URL canonici
- Mantenere lastmod accurato: Aggiornare solo quando il contenuto cambia effettivamente
- Usare file di indice sitemap per siti grandi
- Escludere pagine noindex
- Referenziare in robots.txt
llms.txt: Il nuovo terzo file per la comprensione IA
Cosa fa llms.txt
llms.txt è un file Markdown nella root del dominio che dà ai modelli linguistici IA un riepilogo strutturato del tuo sito. Dove robots.txt controlla l'accesso e sitemap.xml mappa gli URL, llms.txt spiega il contesto.
Per un'analisi completa del formato llms.txt, leggi la nostra guida alla specifica del formato llms.txt.
Confronto: Cosa controlla ogni file
| robots.txt | sitemap.xml | llms.txt | |
|---|---|---|---|
| Scopo | Controllo accesso | Scoperta URL | Contesto semantico |
| Formato | Direttive personalizzate | XML | Markdown |
| Dice ai crawler | Dove possono andare | Quali pagine esistono | Cosa significa il sito |
| Pubblico | Tutti i web crawler | Bot dei motori di ricerca | Modelli linguistici IA |
| Dal | 1994 | 2005 | 2024 |
Come i tre file lavorano insieme
- robots.txt risponde: "Posso entrare?" Stabilisce i confini.
- sitemap.xml risponde: "Dove devo guardare?" La sitemap mostra l'inventario completo delle pagine.
- llms.txt risponde: "Cosa significa tutto questo?" llms.txt fornisce il livello interpretativo.
Configurare tutti e tre per la visibilità IA
Passo 1: Verificare il tuo robots.txt
Controlla che non stai bloccando i crawler IA dai tuoi contenuti pubblici.
Passo 2: Validare il tuo sitemap.xml
Conferma che la tua sitemap includa tutte le tue pagine importanti con date lastmod accurate.
Passo 3: Creare il tuo llms.txt
Questo è il file che manca alla maggior parte dei siti. Puoi usare il nostro generatore gratuito per crearne uno automaticamente. Per la specifica completa, consulta la nostra guida completa a llms.txt.
Passo 4: Testare la configurazione completa
Visita tutti e tre i file nel browser per confermarne l'accessibilità. Testa con i sistemi IA.
Cosa succede se ne salti uno
- Niente robots.txt: Tutti i crawler accedono a tutto, incluse pagine che vorresti tenere private.
- Niente sitemap.xml: La scoperta dei contenuti è più lenta.
- Niente llms.txt: I sistemi IA devono inferire la tua identità di brand. La loro rappresentazione sarà meno accurata.
Tutti e tre i file richiedono uno sforzo minimo. robots.txt e sitemap.xml sono probabilmente già sul tuo sito. llms.txt è quello che la maggior parte delle aziende deve ancora aggiungere. Crea il tuo adesso e completa il set.

Fabian van Til
Fondatore, Akravo — Stratega di visibilità IA
Fabian van Til è stratega di visibilità IA e imprenditore e-commerce. Ha costruito e venduto un'agenzia SEO specializzata, scalato più brand e nel 2024 scoperto che i suoi brand erano invisibili nella ricerca IA nonostante ottimi ranking su Google. Akravo nasce da quella ricerca.
Vuoi implementare l'AI SEO per la tua azienda?
Prenota una chiamata