Quiz sull’indicizzazione e cose imparate a pappagallo

Craaak! Polly vuole un biscotto!

Un argomento ricorrente nei discorsi tra colleghi e amici SEO è legato a quanta confusione vi sia sul tema dell’indicizzazione.

Il fatto stesso che il termine “indicizzazione” venga spesso usato in contesti che non hanno niente a che fare con un indice, la dice lunga sul generale stato di confusione nella cultura SEO: non essendoci una definizione unanimemente condivisa del termine, ognuno di noi lo può usare (e lo usa) come gli pare.

Magari voi penserete che le tecniche di indicizzazione siano di facile comprensione a tutti, eppure vi posso assicurare che in tanti anni ho visto moltissimi SEO, anche di grande esperienza, fallire miseramente se messi alla prova con un semplicissimo quesito.

Il quesito

Possiedo un sito web le cui pagine sono già indicizzate da Google. Nasce l’esigenza di non far apparire più una specifica pagina nei risultati di ricerca del motore. Allora inserisco in quella pagina un meta tag ROBOTS con direttiva NOINDEX e, per sicurezza, aggiungo anche nel file robots.txt una riga DISALLOW dedicata a quella specifica pagina. Che cosa c’è di illogico (e sbagliato) in questo procedimento?

La risposta è, ovviamente, che se desideriamo impartire un’istruzione allo spider scrivendola nel codice della pagina HTML, non dobbiamo impedire allo spider di scaricare la pagina e quindi non dobbiamo usare il disallow nel file robots.txt

Immagino che la stragrande maggioranza dei frequentatori/trici di questo blog non dovrebbero avere avuto grandi difficoltà a rispondere alla domanda, però sono certo che rimarreste sorpresi nel sapere quanti SEO, nel corso degli anni, non sono riusciti a trovare facilmente la risposta. Una risposta che dovrebbe essere immediata, per chi ha appreso l’ABC del SEO.

La domanda che mi pongo è: “Perché ho osservato tutte queste difficoltà?” e la risposta probabilmente è: “Perché spesso si apprende l’ABC meno utile.”

Memorizzare un protocollo o memorizzare tutte le possibili combinazioni?

Il fenomeno che ho osservato nel corso degli anni tra coloro che si interessano di SEO è che diverse persone sono poco propense a studiare le regole di base del funzionamento di un sistema.

Al contrario, ho notato che l’approccio di apprendimento che va per la maggiore è quello di imparare il maggior numero di combinazioni che possono scaturire dall’applicazione e dall’interazione di un insieme di diverse regole ed elementi.

E’ come se invece di capire come funziona l’operazione aritmetica dell’addizione si cercasse di imparare a memoria i risultati di tutte le possibili somme di due numeri.

Il fenomeno si presenta con maggiore evidenza proprio sul tema dell’indicizzazione, perché i motori di ricerca hanno sfornato nel corso degli anni sempre più strumenti per aiutare i webmaster a gestire al meglio l’archiviazione delle risorse. Il risultato è che ad ogni introduzione di un nuovo strumento nascono dubbi su cosa farci e in quali occasioni può essere deleterio usarlo.

Dal mio punto di vista, l’ABC SEO legato ai fenomeni di indicizzazione consiste nelle seguenti informazioni:

  • le basi del protocollo HTTP
  • il funzionamento del modello client/server
  • il funzionamento di uno spider
  • a che cosa serve un file robots.txt e il robots exclusion standard
  • il diverso significato dei termini “indicizzazione”, “archiviazione” e “richiesta”

Una volte apprese le suddette basi, che rimangono pressoché immutabili nel tempo, è possibile crearsi una visione chiara del protocollo che gestisce il variopinto mondo dell’indicizzazione e dell’archiviazione.

Combinazioni esotiche tra robots.txt, intestazioni HTTP, meta tag, e attributi rel=canonical troveranno subito posto all’interno del paradigma che ci siamo costruiti e non sarà necessario imparare a pappagallo gli effetti di ogni possibile interazione tra questi ed altri elementi.

Ogni futuro strumento, inoltre, può essere inserito all’interno dello scenario per avere subito chiaro come può interagire con gli strumenti preesistenti.

Un flusso parziale

Solo per esercizio, ho creato un semplice diagramma di flusso che illustra un semplice protocollo di indicizzazione limitatamente agli elementi: direttiva noindex, robots.txt e indexer.

Il flow chart dipinge solo un processo di base e tiene conto solo di un paio di strumenti di indicizzazione, però dovrebbe fornire già qualche indicazione importante sull’interazione tra lo spider e l’indexer.

Per esempio, seguendo il flow chart dovrebbe essere possibile rispondere facilmente a domande quali “Quali testi associabili ad una risorsa non possono finire nella SERP se il robots.txt chiede di non accedervi?”, o anche “Che ruolo deve avere il file robots.txt nel caso in cui non si desideri far indicizzare una risorsa?”.

Flow chart (parziale) dell'indicizzazione

Il flusso di indicizzazione-fine-di-mondo

Un flow chart completo che mostri l’interazione di tutti gli strumenti di indicizzazione esistenti sarebbe decisamente più complesso da realizzare, ma non certo impossibile. Ma sicuramente strafigo!

Partire dalla redazione di un elenco di tutti gli strumenti sarebbe il primo passo da fare.

C’è qualcuno tra di voi che se la sente? :)

Se vi può servire, il software che ho utilizzato per produrre il diagramma di flusso è gratuito e si chiama yED.

Buona analisi del flusso!

9 Responses to Quiz sull’indicizzazione e cose imparate a pappagallo

  1. Tambu scrive il 8 July 2011 at 09:12

    e mi raccomando: “MAI incrociare i flussi!” 😉

  2. Giacomo Pelagatti scrive il 8 July 2011 at 11:42

    Bel flow-chart! Però io nel penultimo box avrei messo “Passo il contenuto della risorsa all’indexer, col flag «La risorsa non deve comparire sulle SERP»”. 😉

  3. Andrea Moro scrive il 8 July 2011 at 13:55

    Grazie per avermi portato a conoscenza di yED :)

    Meglio di quel cesso di xyxyxyx che usavo fino ad oggi :)

  4. Youlistic scrive il 8 July 2011 at 23:07

    Usare simultaneamente le istruzioni che illustri nel post è quindi una ridondanza formale; ma tu parli di “sbaglio”, si generano forse conflitti, loop? Viene causato un danno effettivo?

    GWT per rimuovere una url dall’indice, accetta uno di entrambi come requisito e se ci limitassimo a non chiedere la rimozione ed includere solo il metatag noindex, credo che dovremo aspettare del tempo prima di ottenere ciò che vogliamo.

    Alla fine poi, potremmo benissimo lasciar perdere questi accorgimenti e ricorrere ad un redirect 301 con il vantaggio di non sprecare neanche un po’ di linkjuice.

    Ma queste sono solo considerazioni confusionarie e mal articolate di un SEO neofita che è onorato di potersi esprimere in questo tuo recapito web.

    Un saluto

    • LowLevel scrive il 9 July 2011 at 00:13

      Ciao Youlistic!

      Usare sia noindex (nel meta tag) sia disallow (nel robots.txt) non è una ridondanza formale ma è un errore che non ti fa raggiungere l’obiettivo.

      Se il tuo obiettivo è comunicare allo spider il comando noindex attraverso il meta tag, usando entrambe gli strumenti impedisci a te stesso di effettuare quella comunicazione.

      E’ come se tu mi consegni una busta all’interno della quale c’è scritto un’istruzione per me ma mi chiedessi di non aprire la busta per nessuna ragione (questo è il compito del Disallow), io non potrò mai sapere che istruzione c’è scritta dentro e di conseguenza non potrò eseguirla.

      Segui dal primo step il diagramma che ho postato: poniti l’obiettivo di impartire il comando noindex attraverso il meta tag e guarda un po’ che succede se usi sia il meta tag sia il disallow nel robots.txt 😉

      La richiesta impartita attravero GWT sarebbe un altro strumento di indicizzazione da aggiungere all’ipotetico diagramma completo, ma si tratta di un servizio aggiuntivo fornito da Google che segue regole tutte sue e del tutto diverse da quelle che derivano dall’applicazione dei protocolli (HTTP e Robots Exclusion Standard).

      Al di là dei molteplici modi per ottenere l’indicizzazione di una risorsa, l’obiettivo che mi sono dato col post era quello di far capire che il sistema del comando dentro la busta che è vietato aprire non può funzionare. Non è una “ridondanza” o un “rafforzativo”, è un “impeditivo”. 😀

  5. Giacomo Pelagatti scrive il 9 July 2011 at 00:22

    La busta contiene l’istruzione “Distruggi questo messaggio, dimenticati di averlo letto e soprattutto non mostrarlo a nessuno”. :)

  6. Tambu scrive il 10 July 2011 at 11:39

    il caso che dici è un errore se la pagina è già esistente e va “tolta”. Io una volta, prima di mettere online un sito, misi il disallow per non far comparire una pagina, e il meta tag per sicurezza nel caso il robots fosse stato irraggiungibile o segato dall’IT o portato via da un uragano :)

  7. Giacomo Pelagatti scrive il 17 February 2012 at 15:35

    Ciao Tambu, usare un Disallow nel file robots.txt quando non si desidera che nemmeno l’URL della risorsa possa comparire sulle SERP è sbagliato, perché quella soluzione non impedisce ai motori di ricerca di includere quell’URL nelle SERP, in presenza di backlink:
    http://www.google.it/search?q=site%3Atools.searchbrain.it&filter=0
    http://tools.searchbrain.it/robots.txt
    Considera anche che al posto dell’uncrawled URL Google può decidere di usare come titolo del risultato l’anchor text dei link che puntano ad esso.

  8. Pingback: Quiz SEO bastardo numero 6: indicizzazione impossibile - LowLevel’s blog

Lascia un commento

More in Just SEO
Migliorare l’indicizzazione con le priorità delle sitemap

Se c'è uno strumento SEO che a mio parere viene spesso sottovalutato è quello dell'attributo priority delle sitemap XML. In...

Close