Tag Archives: Robots.txt

Quelli che… “Googlebot non rispetta il robots.txt”

Semaforo rosso e segnale di stop

Se avessi ricevuto un euro per tutte le volte che ho sentito un SEO dire “Google non rispetta il robots.txt” avrei guadagnato circa dieci euro. Quindi l’ho sentito dire solo una decina di volte ma la mera quantità passa in secondo piano quando si scopre che tutte quelle dieci volte coincidevano con errori di interpretazione dell’interlocutore di turno.

Sia ben chiaro: esistono casi particolari in cui Google dichiara esplicitamente ed in piena trasparenza che non rispetterà alcune direttive presenti nel robots.txt, tuttavia il mancato rispetto che ho visto lamentare a diversi webmaster e SEO non fa riferimento a quei casi particolari ma è riferito alle normali attività di crawling di Googlebot.

Per farla breve, secondo i suddetti interlocutori la direttiva Disallow pare sia usata da Google come abituale succedaneo di carta igienica. In questo articolo voglio elencare alcuni di questi episodi e spiegare dove stava l’equivoco che ha generato, di volta in volta, le errate convinzioni.

L’articolo continua, leggi il resto… »

Quiz sull’indicizzazione e cose imparate a pappagallo

Craaak! Polly vuole un biscotto!

Un argomento ricorrente nei discorsi tra colleghi e amici SEO è legato a quanta confusione vi sia sul tema dell’indicizzazione.

Il fatto stesso che il termine “indicizzazione” venga spesso usato in contesti che non hanno niente a che fare con un indice, la dice lunga sul generale stato di confusione nella cultura SEO: non essendoci una definizione unanimemente condivisa del termine, ognuno di noi lo può usare (e lo usa) come gli pare.

Magari voi penserete che le tecniche di indicizzazione siano di facile comprensione a tutti, eppure vi posso assicurare che in tanti anni ho visto moltissimi SEO, anche di grande esperienza, fallire miseramente se messi alla prova con un semplicissimo quesito.

Il quesito

Possiedo un sito web le cui pagine sono già indicizzate da Google. Nasce l’esigenza di non far apparire più una specifica pagina nei risultati di ricerca del motore. Allora inserisco in quella pagina un meta tag ROBOTS con direttiva NOINDEX e, per sicurezza, aggiungo anche nel file robots.txt una riga DISALLOW dedicata a quella specifica pagina. Che cosa c’è di illogico (e sbagliato) in questo procedimento?

La risposta è, ovviamente, che se desideriamo impartire un’istruzione allo spider scrivendola nel codice della pagina HTML, non dobbiamo impedire allo spider di scaricare la pagina e quindi non dobbiamo usare il disallow nel file robots.txt

Immagino che la stragrande maggioranza dei frequentatori/trici di questo blog non dovrebbero avere avuto grandi difficoltà a rispondere alla domanda, però sono certo che rimarreste sorpresi nel sapere quanti SEO, nel corso degli anni, non sono riusciti a trovare facilmente la risposta. Una risposta che dovrebbe essere immediata, per chi ha appreso l’ABC del SEO.

La domanda che mi pongo è: “Perché ho osservato tutte queste difficoltà?” e la risposta probabilmente è: “Perché spesso si apprende l’ABC meno utile.”

Memorizzare un protocollo o memorizzare tutte le possibili combinazioni?

Il fenomeno che ho osservato nel corso degli anni tra coloro che si interessano di SEO è che diverse persone sono poco propense a studiare le regole di base del funzionamento di un sistema.

Al contrario, ho notato che l’approccio di apprendimento che va per la maggiore è quello di imparare il maggior numero di combinazioni che possono scaturire dall’applicazione e dall’interazione di un insieme di diverse regole ed elementi.

E’ come se invece di capire come funziona l’operazione aritmetica dell’addizione si cercasse di imparare a memoria i risultati di tutte le possibili somme di due numeri.

Il fenomeno si presenta con maggiore evidenza proprio sul tema dell’indicizzazione, perché i motori di ricerca hanno sfornato nel corso degli anni sempre più strumenti per aiutare i webmaster a gestire al meglio l’archiviazione delle risorse. Il risultato è che ad ogni introduzione di un nuovo strumento nascono dubbi su cosa farci e in quali occasioni può essere deleterio usarlo.

Dal mio punto di vista, l’ABC SEO legato ai fenomeni di indicizzazione consiste nelle seguenti informazioni:

  • le basi del protocollo HTTP
  • il funzionamento del modello client/server
  • il funzionamento di uno spider
  • a che cosa serve un file robots.txt e il robots exclusion standard
  • il diverso significato dei termini “indicizzazione”, “archiviazione” e “richiesta”

Una volte apprese le suddette basi, che rimangono pressoché immutabili nel tempo, è possibile crearsi una visione chiara del protocollo che gestisce il variopinto mondo dell’indicizzazione e dell’archiviazione.

Combinazioni esotiche tra robots.txt, intestazioni HTTP, meta tag, e attributi rel=canonical troveranno subito posto all’interno del paradigma che ci siamo costruiti e non sarà necessario imparare a pappagallo gli effetti di ogni possibile interazione tra questi ed altri elementi.

Ogni futuro strumento, inoltre, può essere inserito all’interno dello scenario per avere subito chiaro come può interagire con gli strumenti preesistenti.

Un flusso parziale

Solo per esercizio, ho creato un semplice diagramma di flusso che illustra un semplice protocollo di indicizzazione limitatamente agli elementi: direttiva noindex, robots.txt e indexer.

Il flow chart dipinge solo un processo di base e tiene conto solo di un paio di strumenti di indicizzazione, però dovrebbe fornire già qualche indicazione importante sull’interazione tra lo spider e l’indexer.

Per esempio, seguendo il flow chart dovrebbe essere possibile rispondere facilmente a domande quali “Quali testi associabili ad una risorsa non possono finire nella SERP se il robots.txt chiede di non accedervi?”, o anche “Che ruolo deve avere il file robots.txt nel caso in cui non si desideri far indicizzare una risorsa?”.

Flow chart (parziale) dell'indicizzazione

Il flusso di indicizzazione-fine-di-mondo

Un flow chart completo che mostri l’interazione di tutti gli strumenti di indicizzazione esistenti sarebbe decisamente più complesso da realizzare, ma non certo impossibile. Ma sicuramente strafigo!

Partire dalla redazione di un elenco di tutti gli strumenti sarebbe il primo passo da fare.

C’è qualcuno tra di voi che se la sente? 🙂

Se vi può servire, il software che ho utilizzato per produrre il diagramma di flusso è gratuito e si chiama yED.

Buona analisi del flusso!