Cos’è e come funziona il robots.txt

Postato in data 8 Gennaio 2018 da Riccardo Esposito - Aggiornato il 13 Gennaio 2018

Tra le diverse attenzioni che devi prestare al sito web c’è quella dedicata al robots.txt, un elemento decisivo nella struttura della tua opera. Perché spesso ti invitano a improvvisare, a creare un sito web da soli. Ma poi ci sono una serie di step che devono essere curati.
robots.txt
E, soprattutto, gestiti per evitare problemi. O magari per sfruttare al massimo quello che hai. Questo è un passaggio che abbiamo già affrontato con il file .htaccess e che oggi voglio riprendere con il robots.txt. Una risorsa che spaventa i meno avvezzi all’argomento, ma che i webmaster conoscono bene: a cosa serve? Come deve presentarsi? Un passo alla volta.

Cos’è il robots.txt: una definizione

Cerchiamo insieme una buona definizione di robots.txt? Allora, con questo termine si intende un file di testo, puro e semplice, da inserire nella cartella root (radice) del proprio sito web. Ecco perché individuare il file in questione basta seguire l’indirizzo www.miodominio.it/robots.txt.

Una buona sintesi sul tema: il robots.txt viene utilizzato per comunicare con i motori di ricerca. Mentre i meta tag Google suggeriscono informazioni rispetto alla singola pagina, questo documento viene letto dal crawler per organizzare al meglio la scansione del contenuto. In che modo? Con quali principi?

Per approfondire: cos’è e come usare l’FTP

Come funziona il robots.txt di un sito

Con il robots.txt puoi dare direttive sull’accesso rispetto a determinate cartelle o risorse. Per la precisione puoi limitare l’attenzione del crawler, lo stesso Google suggerisce che le istruzioni inserite in questo file non sono obbligatorie per tutti e in ogni situazione:

I comandi del file non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l’accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file ma non è detto che altri crawler facciano altrettanto.

Ma qual è l’applicazione concreta di questo strumento? Attraverso le indicazioni lasciate nel robots.txt, ad esempio, puoi suggerire a uno spider (non per forza a tutti, magari solo a quello di Google) di non entrare in una determinata cartella. O di non indicizzare una pagina. Ti serve un esempio chiaro di robots.txt? Perfetto, leggi il prossimo paragrafo.

Esempio di robots.txt: come si scrive

Questo è il passaggio chiave per chi deve iniziare a lavorare e vuole creare un robots.txt: come si scrive? Quali sono i comandi per interagire con gli spider che monitorano il sito web? Semplice, c’è una sintassi condivisa da rispettare in ogni caso.

User-Agent: *
Disallow:

Ecco un esempio di robots.txt. Con user agent si intende lo spider preso in considerazione, e quando vedi l’asterisco si intende che il comando è rivolto a tutti. Con disallow si intende non consentire l’accesso: questo punto può essere ripetuto ogni volta che si vuole limitare l’accesso a una risorsa. Ecco un’altra combinazione molto comune.

User-agent: *
Disallow: /cartella_con_file_privati/
Disallow: /cartella_pubblica/file_privato.html

User-agent: SpiderInutile
Disallow: /

In questo caso il robots.txt è più articolato, ma cosa indica? Nella prima parte suggerisce a tutti gli spider di indicizzare il sito, tranne la cartella con i file privati che potrebbero essere quelli inclusi in un’area privata e dedicata solo a chi si iscrive alla newsletter. Poi, in una cartella qualsiasi, c’è un file che deve rimanere non pubblico, quindi lo escludo.

Attenzione ai dettagli (asterisco e slash)

Nella seconda parte del robots.txt do un’informazione importante: comunico a quello spider, e solo a quello, di escludere dall’indicizzazione l’intero sito. Attenzione: se al posto del nome spider inserisco l’asterisco comunico a tutti i crawler di ignorare il mio sito. Quindi su Google il mio lavoro verrà ignorato. Ecco la situazione tipica:

User-agent: *
Disallow: /

In questo caso sto comunicando la completa esclusione del sito web a qualsiasi spider. Spesso chi muove i primi passi in questo settore non è a conoscenza del suddetto passaggio e si ritrova con un sito non visibile e non indicizzato a causa di un semplice slash sbagliato. In questi casi su Google uscirà una dicitura: “una descrizione per questo risultato non è disponibile a causa del file robots.txt di questo sito”.

Generatori di robots.txt e tool per verificare

Ci sono diversi tool per verificare il robots.txt. Però quello che suggerisco è nella Search Console di Google. Qui puoi trovare uno strumento che modifica e verifica il file, evidenzia errori, ti consente di controllare eventuali blocchi rispetto allo spider che preferisci.

Insomma, qui puoi fare tutto. Rispetto alla necessità di usare un generatore di robots.txt puoi usare questo seobook.com/robots-txt/generator anche se il mio consiglio è semplice: lavora con un webmaster per definire il tuo documento. E poi caricalo nella directory principale del sito web per suggerire ai motori di ricerca come muoversi.

Da leggere: cos’è e come inserire il testo alternative

La tua esperienza con il robots.txt

Tu hai già affrontato il tema? Sai come impostare i passaggi più delicati di questa risorsa? A volte basta un dettaglio per fare la differenza. Ecco perché ti suggerisco di lasciare nei commenti eventuali domande: affrontiamo insieme questo argomento.

Clicca per votare questo articolo!
[Voti totali: 5 Media: 5]
Riccardo Esposito
Tag: seo

Discussione

10 commenti presenti
  • Riccardo ha commentato il 2018-01-30 13:46:00

    Ciao, vorrei sapere come ottimizzare il file Robots TXT in ottica seo per il mio sito? Puoi aiutarmi!?


  • Angela ha commentato il 2018-03-24 15:21:35

    Ciao, Ho già un eCommerce con cms Magento e dovrò integrarlo con un blog WordPress. Bisogna fare qualcosa sul file Robots.txt? grazie


    • Riccardo Esposito ha commentato il 2018-03-28 09:44:35

      Ciao Angela, la domanda è troppo generica. Il rischio è quello di suggerire qualcosa di errato, meglio lavorare con un bravo SEO. Basta uno / di troppo nel robot.txt per fare danni.


  • MAURO ha commentato il 2019-01-05 12:21:18

    Ma se io non ho nessuna directory/files da nascondere allo spider, devo lo stesso creare robot.txt, magari per non essere penalizzato?


    • Riccardo Esposito ha commentato il 2019-01-05 14:10:22

      Ciao, onestamente non mi sono mai trovato di fronte alla necessità di chiedermi se sia obbligatorio avere un robots.txt. perché anche se non devi bloccare niente questo file serve a sottolineare ai crawler di fare il proprio lavoro: scansionare tutto. Quindi io direi di metterlo comunque e dare le giuste indicazioni ai motori di ricerca.


      • roberto ha commentato il 2021-03-09 14:55:39

        ciao non mi è chiaro , quindi…quale la sintassi per far scansionare tutto?
        grazie :)


        • Riccardo Esposito ha commentato il 2021-03-13 05:54:01

          Devi dire agli spider di non fermarsi davanti ad alcuna cartella. Per affrontare il caso specifico ti consiglio di far vedere il robots.txt a un webmaster.


  • Salento ha commentato il 2019-11-23 18:51:50

    Tutti devono creare creare il robot.txt?


    • Riccardo Esposito ha commentato il 2019-11-25 08:00:22

      Non esiste un obbligo ma è indispensabile per avere un buon risultato. Quindi ti dico sì, assicurati di avere il tuo robots.txt.


    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *