Come fare a… – Il computer in pratica
  • Home
  • Come fare a…
    • Canali tematici
      • Fotografia digitale
      • Produttività
      • Internet & Web Design
      • Editoria digitale
      • Vita digitale
      • Sicurezza informatica
    • In evidenza
      • Photoshop
      • Lightroom
      • Affinity Photo
      • Affinity Publisher
      • Affinity Designer
    • Seguici
      • Seguici su Facebook
      • Seguici su Twitter
      • Seguici su Instagram
      • Telegram
      • Feed RSS
    • Come fare a…
      • Chi siamo
      • I nostri servizi
      • Scrivi per noi
      • Sostieni il nostro sito
      • Contatta Come fare …
  • I nostri servizi
    • Servizi Web
      • Sviluppo siti internet
      • Pubblicità sul web
      • Consulenza SEO
    • Comunicazione aziendale
      • Presentazioni aziendali
      • Dem e Newsletter
    • Servizi editoriali
      • Grafica per la stampa
      • Libri e romanzi
      • Impaginazione di fumetti
      • Tesi di laurea
      • Impaginazione ebook
    • Altri servizi
      • Prototipazione di siti e app
      • Elaborazioni e fotoritocco
  • Libri & ebook
  • Mappa del sito
Facebook Twitter Instagram
Facebook Twitter Instagram Telegram
Come fare a… – Il computer in praticaCome fare a… – Il computer in pratica
  • Home
  • Come fare a…
    • Canali tematici
      • Fotografia digitale
      • Produttività
      • Internet & Web Design
      • Editoria digitale
      • Vita digitale
      • Sicurezza informatica
    • In evidenza
      • Photoshop
      • Lightroom
      • Affinity Photo
      • Affinity Publisher
      • Affinity Designer
    • Seguici
      • Seguici su Facebook
      • Seguici su Twitter
      • Seguici su Instagram
      • Telegram
      • Feed RSS
    • Come fare a…
      • Chi siamo
      • I nostri servizi
      • Scrivi per noi
      • Sostieni il nostro sito
      • Contatta Come fare …
  • I nostri servizi
    • Servizi Web
      • Sviluppo siti internet
      • Pubblicità sul web
      • Consulenza SEO
    • Comunicazione aziendale
      • Presentazioni aziendali
      • Dem e Newsletter
    • Servizi editoriali
      • Grafica per la stampa
      • Libri e romanzi
      • Impaginazione di fumetti
      • Tesi di laurea
      • Impaginazione ebook
    • Altri servizi
      • Prototipazione di siti e app
      • Elaborazioni e fotoritocco
  • Libri & ebook
  • Mappa del sito
Come fare a… – Il computer in pratica
Ti Trovi:Home » Internet & Web Design » Azioni SEO all'interno dal sito » Istruire i motori di ricerca con il file robots.txt

Istruire i motori di ricerca con il file robots.txt

0
Pubblicato da Come fare a... il 15/05/2016 Azioni SEO all'interno dal sito
Condividi
Facebook Twitter LinkedIn Telegram WhatsApp

Il file Robots.txt è un semplice file di testo che è possibile piazzare nella root del sito per istruire i motori di ricerca su quali cartelle del sito deve indicizzare regolarmente e quali non deve indicizzare affatto. Questo file è letto dalla maggior parte dei motori di ricerca ed è di estrema utilità per una buona ottimizzazione per i motori di ricerca.

Il file Robot.txt

Nello scorso articolo abbiamo visto come risulti cruciale identificare quale contenuto debba essere reso invisibile ai motori di ricerca; in nostro aiuto ci viene il Robots Exclusion Protocol (REP), un protocollo che vieta l’accesso da direttori specificati all’intero sito. Il protocollo REP effettua controlli che possono essere applicati sia a livello globale attraverso il file robots.txt, sia a livello di pagina (come abbiamo visto precedentemente nello scorso articolo).
Il file Robots. txt è un semplice file di testo codificato in formato UTF-8, che contiene comandi consistenti e una o più direttive che specificano quali contenuti il motore dovrà analizzare per indicizzarli regolarmente. Il file Robots.txt dovrà sempre trovarsi nella directory principale del proprio dominio. Per esempio, www.ingegneridelweb.com/Robots.txt è la posizione corretta per il file Robots.txt all’interno del dominioingegneridelweb.com.

Nota
Dobbiamo sottolineare come per ogni sottodominio sarebbe opportuno applicare un opportuno file robots.txt. Allo stesso tempo, però, tale file si applica a tutte le directory e sotto directory presenti nello stesso dominio o sottodominio.

Vediamo ora come utilizzare correttamente questo file per istruire gli spider dei motori di ricerca:

# Blocca l'accesso a tutti gli spider alla cartella admin e al suo contenuto
 User-agent: *
 Disallow: /admin
  • User Agent indica a quale robot il comando si applica; è possibile definire il valore * (asterisco) per specificare che tale comando viene applicato a tutti i robot. Se vogliamo invece che l’azione sia specifica per un determinato crawler di un motore di ricerca, possiamo specificare il valore;
  • Disallow serve a indicare qual è il contenuto da bloccare. Deve iniziare con / e può essere usato con alcune combinazioni di caratteri speciali.
Nome Robot/strong>Funzione
Google
GooglebotAnalizza le pagine web
Googlebot-MobileAnalizza le pagine web per mobile
Googlebot-ImageAnalizza le immagini
Mediapartners-GoogleAnalizza i contenuti AdSense
AdsBot-GoogleAnalizza i contenuti AdWords
Yahoo!
SlurpAnalizza le pagine web
Yahoo-MMCrawlerAnalizza le immagini
Yahoo-MMAudVidAnalizza i contenuti video
Bing
MSNBotAnalizza le pagine web
MSNBot-MediaAnalizza i contenuti multimediali
MSNBot-NewsAnalizza i feed delle news

Tabella 1: I crawler dei maggiori motori di ricerca

Nota
Nel seguente articolo potete prendere visione dei nomi dei principali crawler utilizzati dai motori di ricerca: ABCdatos BotLink

Vediamo alcuni esempi

Blocca l’accesso al documetno mo.html, da parte di tutti gli spider

# Blocca l'accesso a tutti gli spider al file mio.html
 User-agent: *
 Disallow: /mio.html

Blocco l’accesso al solo spider di Google a tutti i file che hanno estensione pdf: 

# Blocca l'accesso a Google a tutti i file con estensione pdf
 User-agent: googlebot
 Disallow: /*.pdf$

Questo esempio è più curioso nella prima riga del Disallow blocco l’accesso a Google alla directory tmp, mentre nella riga sottostante viene bloccato l’accesso sia ai file, sia alle directory pippo.

# Blocca l'accesso a Google alla directory tmp e alla directory e i file pippo
 User-agent: googlebot
 Disallow: /tmp/
 Disallow: /pippo #blocca le directory e i file "pippo" per esempio pippo.html

Blocca tutti i robot; è da utilizzarsi quando il proprio sito è in fase di testing e non ancora pronto per essere indicizzato o per i sottodomini riservati. 

# Blocca l'indicizzazione dell'intero sito web
 User-agent: *
 Disallow: /

Per consentire l’accesso a tutti gli spider del sito dobbiamo lasciare uno spazio vuoto dopo i due punti che seguono la dicitura Disallow. 

#Il sito è completamente accessibile a tutti gli spider
 User-agent: *
 Disallow:

Nell’esempio sotto riportato inibisco l’accesso a tutte le cartelle tranne alla cartella public. 

# Abilito soltanto una cartella all'accesso dello spider
 User-agent: *
 Disallow: /
 Allow: /public/

Impedisce la scansione di URL che includono il punto interrogativo

# Block access to URLs that contain ?
 User-agent: *
 Disallow: /*?

Prima di scansionare una pagina Bing deve aspettare 2 secondi

# Lo spieder di Bing deve aspettare 2 secondi prima di scansionare un'altra pagina
 User-agent: msnbot
 Crawl-delay: 2

Il ritardo è supportato da Yahoo!, Bing e Ask. Incarica un crawler di aspettare il numero specificato di secondi tra una scansione e l’altra. L’obiettivo della direttiva è quello di ridurre il carico sul server. 

User-agent: *
 Disallow: /include/
 Request-rate: 1/5
 Visit-time: 0910-1235

L’esempio mostra due nuovi parametri:

  • REQUEST-RATE: utilizzato per istruire lo spider a visitare al massimo n pagine ogni tot secondi (nel nostro caso 1 pagina ogni 5 secondi);
  • VISIT-TIME: per indicare il lasso di tempo in cui lo spider può accedere, nel nostro caso può accedere dalle 9:10 fino alle 12:35.

Nota
Nel seguente articolo potete trovare ulteriori spiegazioni sull’utilizzo avanzato dei comandi per il file robots.txt: An Extended Standard for Robot Exclusion

Infine, l’ultimo esempio proposto serve a dare un aiuto agli spider a individuare la sitemap del nostro sito web . Ricordiamo, inoltre, che attraverso lo strumento Google Webmaster Tools (GWT), è possibile monitorare la corretta installazione del file Robots.txt.

User-agent: *
 Sitemap: http://www.sito.com/GSiteMap.ashx
Figura 1: gestione del file Robots.txt dagli strumenti di GWT
Figura 1: gestione del file Robots.txt dagli strumenti di GWT

Nota
È importante sottolineare il fatto che mettere il tag “Disallow” a una determinata directory non implica che essa non possa essere disponibile via web e quindi protetta da eventuali attacchi di malintenzionati. Utenti curiosi potrebbero analizzare il vostro file robots.txt per vedere le cartelle “protetprotettete” e cercare di accedervi. Per questo motivo è fondamentale proteggere con password o con sistemi di cifratura lato server le directory o i file riservati.


Autore: Marco Maltraversi – Consulente SEO – Tratto da: SEO e SEM – Edizioni FAG

Internet SEO Web Design

Post correlati

HTML 5 e SEO

Web Semantico e microformati nel SEO

L’attributo ALT delle immagini nel SEO

INTERNET & WEB DESIGN
  • Impariamo a usare i CSS
  • SEO fuori dal sito
  • SEO sul sito
  • E-business
  • Business con Twitter
  • Office 2010
ULTIMI ARTICOLI
Impariamo a usare i CSS

Definire un layout di base per la pagina con i CSS

21/05/2016
Impariamo a usare i CSS

Formattare il testo con i CSS

21/05/2016
Impariamo a usare i CSS

Introduzione ai CSS

21/05/2016
GLI ALTRI CANALI
  • Fotografia digitale
  • Produttività
  • Internet & Web Design
  • Editoria digitale
  • Vita digitale
  • Sicurezza informatica
© 2023 Come fare a... - P.IVA: 02713120182 - Termini di utilizzo - Privacy Policy - Cookie Policy

Digita sopra e premi Enter per cercare. Premi Esc per annullare.

Usiamo i cookie per fornirti la miglior esperienza d'uso e navigazione sul nostro sito web.

Puoi trovare altre informazioni riguardo a quali cookie usiamo sul sito o disabilitarli nelle impostazioni.

Come fare a... - Il computer in pratica
Powered by Come fare a...  GDPR Cookie Compliance
Panoramica privacy

Questo sito Web utilizza i cookie per consentirci di offrire la migliore esperienza utente possibile. Le informazioni sui cookie sono memorizzate nel tuo browser ed eseguono funzioni come riconoscerti quando ritorni sul nostro sito web e aiutando il nostro team a capire quali sezioni del sito web trovi più interessanti e utili.

Cookie strettamente necessari

I cookie strettamente necessari dovrebbero essere sempre attivati per poter salvare le tue preferenze per le impostazioni dei cookie.

Se disabiliti questo cookie, non saremo in grado di salvare le tue preferenze. Ciò significa che ogni volta che visiti questo sito web dovrai abilitare o disabilitare nuovamente i cookie.

Cookie di terze parti

Questo sito Web utilizza Google Analytics per raccogliere informazioni anonime come il numero di visitatori del sito e le pagine più popolari.

Il mantenimento di questo cookie abilitato ci aiuta a migliorare il nostro sito web.

Attiva i cookie strettamente necessari così da poter salvare le tue preferenze!