I file robots.txt è posizionato sulla webroot (directory principale) del sito dà delle indicazioni agli spider dei motore.
Tra queste indicazioni può esserci quella che dice di non indicizzare il contenuto di una directory.
Così facendo si evita di indicizzare delle pagine con contenuti già esistenti in altre.
Di seguito un esempio del contenuto del file:
User-agent: *
Disallow: /promozioni/
Disallow: /nuovi-arrivi/
Significa: per tutti gli spider, non passate in promozioni e nemmeno in nuovi-arrivi
0 commenti