Tag Archives: Spider

Gli spider non “seguono” davvero i link: un equivoco su follow e nofollow

Cavolfiore

Pur non avendo svolto alcuna valutazione dei lettori abituali di questo blog, sono indotto a credere che una loro buona percentuale sia composta da professionisti del settore con una certa esperienza sulle spalle.

Le precisazioni pubblicate nel presente articolo riguardo il concetto di “following” dei link risulterà forse un po’ banale a coloro che hanno ben chiaro come funzioni il crawling del web da parte di un motore di ricerca.

Ciononostante più di una volta mi è capitato di imbattermi in malintesi di fondo su che cosa significhi “following” e, di conseguenza, quale sia il significato e la funzione delle direttive “follow” e “nofollow”.

In un paio di occasioni il malinteso ha prodotto anche effetti negativi concreti e quindi ho pensato che ci stesse bene un breve articolo di chiarimento su questo tema.

L’articolo continua, leggi il resto… »

L’analisi SEO del sito attraverso i log del web server

Quanti di voi si sono dedicati almeno una volta all’analisi dei log del web server nel tentativo di capire come gli spider dei motori perlustrano un sito web?

La mia impressione è che questo genere di analisi fosse più comune in passato che non oggi, eppure osservando i comportamenti degli spider è possibile osservare possibili criticità e persino trarre informazioni sull’opinione che un motore di ricerca si è fatto di un sito web. I log sono utili anche per altri scopi, per esempio di web analysis, ma questo esula dal tema del presente post.

Questo articolo nasce da un breve post sull’argomento scritto tempo addietro su Google+. Martino Mosna mi chiedeva perché non ne facevo un articolo per il blog ed io non ritenevo che i contenuti fossero particolarmente interessanti.

Di conseguenza ho deciso di riscriverli e arricchirli, aggiungendo anche i risultati di una reale analisi SEO che ho svolto qualche mese fa, penso che alla fine sia venuto fuori qualcosa di potenzialmente utile.

Tutto ciò che segue fa riferimento al motore di ricerca Google e allo spider Googlebot dedicato all’indice Web. Alcune delle considerazioni fatte possono essere estese attraverso il (vostro) sano buonsenso anche agli spider di altri motori di ricerca.

L’articolo continua, leggi il resto… »

Quiz sull’indicizzazione e cose imparate a pappagallo

Craaak! Polly vuole un biscotto!

Un argomento ricorrente nei discorsi tra colleghi e amici SEO è legato a quanta confusione vi sia sul tema dell’indicizzazione.

Il fatto stesso che il termine “indicizzazione” venga spesso usato in contesti che non hanno niente a che fare con un indice, la dice lunga sul generale stato di confusione nella cultura SEO: non essendoci una definizione unanimemente condivisa del termine, ognuno di noi lo può usare (e lo usa) come gli pare.

Magari voi penserete che le tecniche di indicizzazione siano di facile comprensione a tutti, eppure vi posso assicurare che in tanti anni ho visto moltissimi SEO, anche di grande esperienza, fallire miseramente se messi alla prova con un semplicissimo quesito.

Il quesito

Possiedo un sito web le cui pagine sono già indicizzate da Google. Nasce l’esigenza di non far apparire più una specifica pagina nei risultati di ricerca del motore. Allora inserisco in quella pagina un meta tag ROBOTS con direttiva NOINDEX e, per sicurezza, aggiungo anche nel file robots.txt una riga DISALLOW dedicata a quella specifica pagina. Che cosa c’è di illogico (e sbagliato) in questo procedimento?

La risposta è, ovviamente, che se desideriamo impartire un’istruzione allo spider scrivendola nel codice della pagina HTML, non dobbiamo impedire allo spider di scaricare la pagina e quindi non dobbiamo usare il disallow nel file robots.txt

Immagino che la stragrande maggioranza dei frequentatori/trici di questo blog non dovrebbero avere avuto grandi difficoltà a rispondere alla domanda, però sono certo che rimarreste sorpresi nel sapere quanti SEO, nel corso degli anni, non sono riusciti a trovare facilmente la risposta. Una risposta che dovrebbe essere immediata, per chi ha appreso l’ABC del SEO.

La domanda che mi pongo è: “Perché ho osservato tutte queste difficoltà?” e la risposta probabilmente è: “Perché spesso si apprende l’ABC meno utile.”

Memorizzare un protocollo o memorizzare tutte le possibili combinazioni?

Il fenomeno che ho osservato nel corso degli anni tra coloro che si interessano di SEO è che diverse persone sono poco propense a studiare le regole di base del funzionamento di un sistema.

Al contrario, ho notato che l’approccio di apprendimento che va per la maggiore è quello di imparare il maggior numero di combinazioni che possono scaturire dall’applicazione e dall’interazione di un insieme di diverse regole ed elementi.

E’ come se invece di capire come funziona l’operazione aritmetica dell’addizione si cercasse di imparare a memoria i risultati di tutte le possibili somme di due numeri.

Il fenomeno si presenta con maggiore evidenza proprio sul tema dell’indicizzazione, perché i motori di ricerca hanno sfornato nel corso degli anni sempre più strumenti per aiutare i webmaster a gestire al meglio l’archiviazione delle risorse. Il risultato è che ad ogni introduzione di un nuovo strumento nascono dubbi su cosa farci e in quali occasioni può essere deleterio usarlo.

Dal mio punto di vista, l’ABC SEO legato ai fenomeni di indicizzazione consiste nelle seguenti informazioni:

  • le basi del protocollo HTTP
  • il funzionamento del modello client/server
  • il funzionamento di uno spider
  • a che cosa serve un file robots.txt e il robots exclusion standard
  • il diverso significato dei termini “indicizzazione”, “archiviazione” e “richiesta”

Una volte apprese le suddette basi, che rimangono pressoché immutabili nel tempo, è possibile crearsi una visione chiara del protocollo che gestisce il variopinto mondo dell’indicizzazione e dell’archiviazione.

Combinazioni esotiche tra robots.txt, intestazioni HTTP, meta tag, e attributi rel=canonical troveranno subito posto all’interno del paradigma che ci siamo costruiti e non sarà necessario imparare a pappagallo gli effetti di ogni possibile interazione tra questi ed altri elementi.

Ogni futuro strumento, inoltre, può essere inserito all’interno dello scenario per avere subito chiaro come può interagire con gli strumenti preesistenti.

Un flusso parziale

Solo per esercizio, ho creato un semplice diagramma di flusso che illustra un semplice protocollo di indicizzazione limitatamente agli elementi: direttiva noindex, robots.txt e indexer.

Il flow chart dipinge solo un processo di base e tiene conto solo di un paio di strumenti di indicizzazione, però dovrebbe fornire già qualche indicazione importante sull’interazione tra lo spider e l’indexer.

Per esempio, seguendo il flow chart dovrebbe essere possibile rispondere facilmente a domande quali “Quali testi associabili ad una risorsa non possono finire nella SERP se il robots.txt chiede di non accedervi?”, o anche “Che ruolo deve avere il file robots.txt nel caso in cui non si desideri far indicizzare una risorsa?”.

Flow chart (parziale) dell'indicizzazione

Il flusso di indicizzazione-fine-di-mondo

Un flow chart completo che mostri l’interazione di tutti gli strumenti di indicizzazione esistenti sarebbe decisamente più complesso da realizzare, ma non certo impossibile. Ma sicuramente strafigo!

Partire dalla redazione di un elenco di tutti gli strumenti sarebbe il primo passo da fare.

C’è qualcuno tra di voi che se la sente? 🙂

Se vi può servire, il software che ho utilizzato per produrre il diagramma di flusso è gratuito e si chiama yED.

Buona analisi del flusso!