Cos’è e come funziona il robots.txt


Postato in data gennaio 8th, da Riccardo Esposito in Blog. 4 comments

Tra le diverse attenzioni che devi prestare al sito web c’è quella dedicata al robots.txt, un elemento decisivo nella struttura della tua opera. Perché spesso ti invitano a improvvisare, a creare un sito web da soli. Ma poi ci sono una serie di step che devono essere curati.
robots.txt
E, soprattutto, gestiti per evitare problemi. O magari per sfruttare al massimo quello che hai. Questo è un passaggio che abbiamo già affrontato con il file .htaccess e che oggi voglio riprendere con il robots.txt. Una risorsa che spaventa i meno avvezzi all’argomento, ma che i webmaster conoscono bene: a cosa serve? Come deve presentarsi? Un passo alla volta.

Cos’è il robots.txt: una definizione

Cerchiamo insieme una buona definizione di robots.txt? Allora, con questo termine si intende un file di testo, puro e semplice, da inserire nella cartella root (radice) del proprio sito web. Ecco perché individuare il file in questione basta seguire l’indirizzo www.miodominio.it/robots.txt.

Una buona sintesi sul tema: il robots.txt viene utilizzato per comunicare con i motori di ricerca. Mentre i meta tag Google suggeriscono informazioni rispetto alla singola pagina, questo documento viene letto dal crawler per organizzare al meglio la scansione del contenuto. In che modo? Con quali principi?

Per approfondire: cos’è e come usare l’FTP

Come funziona il robots.txt di un sito

Con il robots.txt puoi dare direttive sull’accesso rispetto a determinate cartelle o risorse. Per la precisione puoi limitare l’attenzione del crawler, lo stesso Google suggerisce che le istruzioni inserite in questo file non sono obbligatorie per tutti e in ogni situazione:

I comandi del file non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l’accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file ma non è detto che altri crawler facciano altrettanto.

Ma qual è l’applicazione concreta di questo strumento? Attraverso le indicazioni lasciate nel robots.txt, ad esempio, puoi suggerire a uno spider (non per forza a tutti, magari solo a quello di Google) di non entrare in una determinata cartella. O di non indicizzare una pagina. Ti serve un esempio chiaro di robots.txt? Perfetto, leggi il prossimo paragrafo.

Esempio di robots.txt: come si scrive

Questo è il passaggio chiave per chi deve iniziare a lavorare e vuole creare un robots.txt: come si scrive? Quali sono i comandi per interagire con gli spider che monitorano il sito web? Semplice, c’è una sintassi condivisa da rispettare in ogni caso.

User-Agent: *
Disallow:

Ecco un esempio di robots.txt. Con user agent si intende lo spider preso in considerazione, e quando vedi l’asterisco si intende che il comando è rivolto a tutti. Con disallow si intende non consentire l’accesso: questo punto può essere ripetuto ogni volta che si vuole limitare l’accesso a una risorsa. Ecco un’altra combinazione molto comune.

User-agent: *
Disallow: /cartella_con_file_privati/
Disallow: /cartella_pubblica/file_privato.html

User-agent: SpiderInutile
Disallow: /

In questo caso il robots.txt è più articolato, ma cosa indica? Nella prima parte suggerisce a tutti gli spider di indicizzare il sito, tranne la cartella con i file privati che potrebbero essere quelli inclusi in un’area privata e dedicata solo a chi si iscrive alla newsletter. Poi, in una cartella qualsiasi, c’è un file che deve rimanere non pubblico, quindi lo escludo.

Attenzione ai dettagli (asterisco e slash)

Nella seconda parte del robots.txt do un’informazione importante: comunico a quello spider, e solo a quello, di escludere dall’indicizzazione l’intero sito. Attenzione: se al posto del nome spider inserisco l’asterisco comunico a tutti i crawler di ignorare il mio sito. Quindi su Google il mio lavoro verrà ignorato. Ecco la situazione tipica:

User-agent: *
Disallow: /

In questo caso sto comunicando la completa esclusione del sito web a qualsiasi spider. Spesso chi muove i primi passi in questo settore non è a conoscenza del suddetto passaggio e si ritrova con un sito non visibile e non indicizzato a causa di un semplice slash sbagliato. In questi casi su Google uscirà una dicitura: “una descrizione per questo risultato non è disponibile a causa del file robots.txt di questo sito”.

Generatori di robots.txt e tool per verificare

Ci sono diversi tool per verificare il robots.txt. Però quello che suggerisco è nella Search Console di Google. Qui puoi trovare uno strumento che modifica e verifica il file, evidenzia errori, ti consente di controllare eventuali blocchi rispetto allo spider che preferisci.

Insomma, qui puoi fare tutto. Rispetto alla necessità di usare un generatore di robots.txt puoi usare questo seobook.com/robots-txt/generator anche se il mio consiglio è semplice: lavora con un webmaster per definire il tuo documento. E poi caricalo nella directory principale del sito web per suggerire ai motori di ricerca come muoversi.

Da leggere: cos’è e come inserire il testo alternative

La tua esperienza con il robots.txt

Tu hai già affrontato il tema? Sai come impostare i passaggi più delicati di questa risorsa? A volte basta un dettaglio per fare la differenza. Ecco perché ti suggerisco di lasciare nei commenti eventuali domande: affrontiamo insieme questo argomento.

Riccardo Esposito

Blogger per Serverplan, webwriter freelance e autore di My Social Web. Scrivo ogni giorno. Ho pubblicato un libro dedicato al mondo del blogging. Ah, l'ho già detto che scrivo?




4 commenti su “Cos’è e come funziona il robots.txt

    • Ciao Angela, la domanda è troppo generica. Il rischio è quello di suggerire qualcosa di errato, meglio lavorare con un bravo SEO. Basta uno / di troppo nel robot.txt per fare danni.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

*

Shares