Quiz SEO bastardo numero 7: il comando “inmeta”

Quiz SEO

Torna, a richiesta di quei poveri dipendenti da quiz che me li chiedono spesso, un nuovo Quiz SEO bastardo!

I quiz SEO bastardi sono accuratamente progettati per far scervellare i SEO. L’obiettivo dei quiz è quello di studiare un po’ i motori di ricerca e magari imparare qualcosa di nuovo durante il processo di analisi che a volte è necessario intraprendere per arrivare alla risposta corretta.

Se non conoscete i quiz SEO bastardi, date un’occhiata alla categoria del blog che li raccoglie. Adesso bando alle chiacchiere e leggete il quiz!

L’articolo continua, leggi il resto… »

Quiz SEO bastardo numero 6: indicizzazione impossibile

NOTA IMPORTANTE: questo post era stato cancellato per errore e l’ho quindi ricreato manualmente. Purtroppo si son persi i commenti e me ne scuso con gli autori. Potete leggere una copia di questo post comprensiva dei commenti su Archive.org

Il quiz SEO che mi appresto a presentarvi è davvero subdolo e se non siete abituati a questo genere di quiz bastardi vi suggerisco prima di farvi un po’ le ossa con i quiz precedenti.

A differenza dei quiz del passato, stavolta ho pensato di creare una risorsa da usare appositamente come cavia per il quiz e che potrà essere quindi oggetto del vostro studio.

Il quiz

Si afferma che è impossibile che la risorsa all’URL http://www.lowlevel.it/quiz-6/ venga indicizzata da Google Web (l’indice generico web, quindi). In altre parole, la risorsa non verrà aggiunta a tale indice nemmeno in forma parziale e di conseguenza non potrà essere estratta da esso per essere presentata all’utente come risultato di una ricerca. Si chiede al partecipante di determinare se la suddetta affermazione è vera o falsa e, a prescindere dalla risposta data, motivarla.

Quiz SEOLe risposte al quiz sono aperte e possono essere date semplicemente commentando questo post. L’obiettivo del quiz è quello di indurre i partecipanti a svolgere un po’ di analisi, che potrebbero costituire un buon ripasso delle tecniche di indicizzazione di Google.

Come di consueto, tra alcuni giorni il quiz verrà chiuso e questo post verrà modificato aggiungendo la risposta esatta e il nome del vincitore/trice.

Buona analisi a tutti! 🙂

La risposta è…

In base ai protocolli esistenti e in particolare al Robots Exclusion Standard e a come e quanto Google vi aderisce, è vero che la risorsa all’URL www.lowlevel.it/quiz-6/ non verrà indicizzata da Google e che non apparirà nelle SERP nemmeno in forma parziale grazie ad una semplice direttiva noindex presente nelle intestazioni HTTP, che viene inviata a tutti i client che mostrano un user-agent contenente il testo “googlebot”.

Ho creato la risorsa in modo che solo i client che si dichiarano Googlebot ricevano il noindex. Si tratta quindi di una forma di erogazione condizionale che si basa sull’user-agent, ovvero una forma di cloaking (che può essere usato anche per finalità diverse dallo spam).

Ecco un esempio di intestazioni HTTP di richiesta della risorsa e di risposta del server:

GET /quiz-6/ HTTP/1.1
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Host: www.lowlevel.it
Accept: */*

HTTP/1.1 200 OK
Date: Mon, 09 Jul 2012 01:11:32 GMT
Server: Apache
X-Powered-By: PHP/5.2.17
X-Robots-Tag: noindex
Cache-Control: max-age=3600
Expires: Mon, 09 Jul 2012 02:11:32 GMT
Vary: User-Agent,Accept-Encoding
Transfer-Encoding: chunked
Content-Type: text/html

N.B.: l’indicizzazione è un processo complesso e le fasi in cui si divide sono molteplici e variano da motore a motore. In funzione di ciò, una definizione di “indicizzazione” applicabile a tutti i motori di ricerca non esiste e sarebbe anche corretto fare una distinzione tra “indicizzare i contenuti di una risorsa” e “indicizzare i riferimenti ad una risorsa”, che sono due cose diverse. Per semplicità di cose, il quiz ha usato l’espressione “indicizzare una risorsa” nella sua accezione letterale e generica, ovvero inserire i suoi contenuti in un indice.

Depistaggi

Considero il cloaking la prima forma di depistaggio di questo quiz, in quanto la direttiva noindex non è percepibile se non richiedendo la risorsa con user-agent Googleblot.

Il riferimento ad unavailable_after all’interno di un commento nel codice HTML della pagina è ovviamente ininfluente ai fini del processo di indicizzazione e quindi del quiz, perché non si tratta di una vera direttiva unavailable_after ma solo di un commento. Anche in questo caso, la documentazione ufficiale di Google spiega come erogare correttamente un’informazione unavailable_after.

Francamente non mi aspettavo che una percentuale così alta di risposte facessero riferimento ad unavailable_after, pensavo che la natura di commento, la sintassi errata e la data farlocca inducessero l’esaminatore/trice ad un immediato scarto di quel codice. Nei quiz passati i depistaggi sono stati sicuramente più bastardi, almeno dal mio punto di vista.

Come ci si poteva arrivare

Penso che il raggiungimento della risposta corretta sia stato ottenuto solo da coloro che hanno svolto le proprie analisi cercando di simulare il più possibile uno spider di Google, prendendo atto di quello che viene effettivamente erogato al motore di ricerca.

Simulare uno spider di Google è un’attività che mi è capitato di svolgere abbastanza frequentemente nelle analisi di siti web, perché a volte capita che un IT abbia implementato soluzioni dedicate agli spider senza però mantenere una traccia formale di tali implementazioni. Col passare del tempo e l’avvicendarsi di dipendenti diversi, è possibile che si perda traccia di come un sito/CMS gestisce le richieste degli spider e quindi può essere opportuno svolgere analisi in tal senso.

Per richiedere una risorsa presentando un user-agent diverso da quello del proprio browser, si possono usare estensioni e plugin per i propri browser (cercando, ne troverete a bizzeffe) oppure dei tool online che consentono di effettuare richieste HTTP specificandone le caratteristiche. Le intestazioni HTTP riportate nella sezione precedente sono state ottenute usando questo tool di SearchBrain ma ne esistono moltissimi altri e nei commenti al presente articolo è venuto fuori anche questo.

Note su indicizzazione e altro

Al di là dell’unavailable_after, nelle risposte sono emersi alcuni temi che vorrei commentare.

Expires

Le intestazioni Expires non influiscono sulla presenza o assenza di una risorsa in un indice di un motore, al massimo possono influire su quanto aggiornata è la versione che il motore ha indicizzato. Uno dei documenti che in passato mi ha aiutato a fare chiarezza sul funzionamento dei sistemi di caching è questo e vi invito a leggerlo. Ma ricordate che niente batte per dettaglio e completezza le relative RFC.

Direttiva noindex

Il noindex è una direttiva che viene seguita da tutti i motori di ricerca e che induce Google a non presentare la risorsa nelle SERP. Se una risorsa con noindex è presente nelle SERP di Google, i casi sono due: 1) il motore non si è (ancora) reso conto del noindex oppure 2) il processo di indicizzazione è buggato.

Per farvi una veloce statistica, sappiate che tutte le perplessità che ho letto in oltre dieci anni riguardo il mancato rispetto della direttiva noindex da parte di un qualsiasi motore di ricerca erano riconducibili al fatto che il webmaster 1) credeva erroneamente di aver erogato correttamente tale direttiva agli spider oppure 2) credeva che la risorsa fosse indicizzata in quanto appariva nelle SERP.

Un errore comunissimo è un errore di tipo logico: si chiede agli spider di non scaricare la risorsa attraverso un Disallow nel robots.txt, impedendogli in questo modo di rendersi conto dell’esistenza del noindex. Ho discusso questo errore di logica in un precedente articolo.

Esiste anche la diffusa convinzione che “se una risorsa appare nelle SERP allora è indicizzata“, assunzione in realtà errata perché non è strettamente necessario indicizzare i contenuti di una risorsa per poter mostrare un suo riferimento nelle SERP: il riferimento può apparire anche in funzione di informazioni esterne alla risorsa stessa.

And the winner should be…

La prima persona a beccare la causa dell’impossibilità di indicizzazione è stata Yagni, la prima persona che ha evidenziato l’esistenza di un cloaking è stata Francesco (Boschian) e la prima persona che ha risposto formalmente (“vero o falso”) dandone motivazione è stata Vanny Rosso.

Li cito tutti e tre e vi invito a ripartire il merito tra loro a seconda di quanto volete premiare la velocità di risposta o il rispetto formale della domanda. 🙂 Dal prossimo quiz darò priorità alla presenza di una risposta formale e completa oltre che corretta.

Il 55% delle risposte è stato errato, di queste un 54,55% è stato fuorviato dal commento sull’unavailable_after. Il 5% dei partecipanti non ha capito la domanda (nel senso che ha dato una risposta su un argomento completamente diverso dall’indicizzazione).

Congratulazioni a chi ha risposto correttamente! Ci si rivede ad un prossimo quiz. 🙂

P.S.
Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.

Quiz SEO bastardo numero 5: che cavolo mostra questa SERP?

Dopo alcuni mesi dall’ultima volta, è tornato il momento di traumatizzare un po’ di SEO.

Se non avete idea di che cosa siano i quiz SEO bastardi, vi basti sapere che sono un pretesto per fare gli smanettoni con i motori di ricerca nella speranza di capire un po’ meglio come funzionano e che il loro elenco si trova nell’apposita categoria Quiz del blog.

Il nuovo quiz SEO che sto per proporvi si differenzia da tutti i precedenti perché la risposta è libera e può essere data semplicemente commentando il post sul blog.

L’articolo continua, leggi il resto… »

Quiz SEO bastardo numero 4: lunghezza massima del TITLE

Proprio quando pensavate che il post sulle “10 cagate SEO” vi avrebbe purificato e reso dotti sui motori di ricerca, torna un nuovo ed umiliante quiz SEO bastardo, a ricordarvi che chiunque può essere preso in castagna.

Quiz SEOSe non conoscete ancora i quiz SEO bastardi vi segnalo la pagina di categoria che li raggruppa e vi comunico che la particolarità di questi quiz è che sono subdoli. Leggete bene, ragionate bene, rispondete bene.

L’unico buon modo per presentarvi questo quarto quiz è dirvi che non vi conviene archiviarlo come qualcosa che non vi cambierà la vita qualsiasi sia la risposta perché, al contrario, la risposta a questo quiz sarà dirompente e riuscirà a stanare quelli che tra di voi non sanno come funziona nemmeno l’ABC di un motore di ricerca. Promesso.

L’articolo continua, leggi il resto… »

Quiz SEO bastardo numero 3: formati dei file

Quiz SEOE’ un vero piacere riprendere l’abitudine dei quiz SEO bastardi, che tanto successo hanno riscosso prima dell’estate. Siamo giunti a quota tre e potete trovare i precedenti quiz nell’apposita categoria Quiz.

Per questo terzo quiz SEO c’è il rischio di fornire troppe informazioni se scendessi nei particolari o persino se tentassi di confondervi fornendo indizi falsi, come ho fatto in passato. Invece verrò subito al dunque e vi invito a rispondere al quesito che segue, limitandomi a dare una piccola assicurazione: la domanda non nasconde alcuna ambiguità o doppio senso.

In Google, l'operatore di ricerca "filetype:" serve a restringere i risultati ai documenti che sono nel formato indicato dall'utente. Tale affermazione è:

  • Vera (79%, 46 Voti)
  • Falsa (24%, 14 Voti)

Votanti totali: 58

Essendo un quiz strutturato in modo un po’ diverso dai precedenti, a prescindere che la vostra risposta sia “Vera” o “Falsa”, vi chiedo magari di scrivere un commento e spiegare perché avete risposto nel modo in cui avete risposto. Non siate timidi! I quiz sono un’occasione per fare didattica, se fornite qualche dettaglio nei commenti andrà a beneficio dell’apprendimento di tutti.

Il commento non è obbligatorio, ovviamente. Potete mantenere il vostro anonimato e limitarvi a votare. 🙂

Come al solito, lascerò le risposte aperte per un po’ di tempo e poi tra qualche giorno tireremo le somme assieme, svelando la soluzione giusta. Buon quiz a tutti! 🙂

La risposta al quiz

Essendo trascorsi un paio di giorni e notando che tra i commenti la soluzione è già stata segnalata, chiudo i voti e comunico che la risposta corretta era “Falsa”. Ovvero l’operatore “filetype:” non restituisce file del formato specificato dall’utente ma solo file che hanno l’estensione indicata dall’utente.

Il 78% di voi ha sbagliato e di ciò sono molto soddisfatto. 😀

Come ci si poteva arrivare

Innanzitutto va detto che per “formato” di un file si intende il tipo di dati che esso contiene e sopratutto come essi vengono codificati e ordinati all’interno del documento. Questo significa che per capire in che formato è un file, è necessario aprirlo e guardaci dentro.

L’estensione del file è invece semplicemente una parte del suo nome: può dare un indizio sul formato ma non determina il formato che, come detto, è determinato solo dai contenuti.

Ovviamente, formato ed estensione possono anche non combaciare, nessuno vieta di prendere un file JPEG e rinominarlo associandogli l’estensione MP3. Rimane un file che contiene un’immagine in formato JPEG ma il cui nome ha l’estensione MP3.

Uno dei modi più semplice per rendersi conto di ciò che l’operatore “filetype:” fa realmente era cercare su Google [filetype:pdf] e indagare sui file che non presentano il “tag” [PDF] né la dicitura “Formato file: PDF/Adobe Acrobat”: alcuni di essi sono normali pagine in formato HTML con un’estensione errata.

Un secondo modo è stato segnalato nei commenti: usare l’operatore specificando un nome di formato inesistente ed osservare che vengono comunque restituiti risultati, ad indicare che ciò che l’operatore fa davvero è semplicemente restringere la ricerca ai file con l’estensione indicata dall’utente.

Relazioni col SEO

Yuri, nei commenti, chiedeva giustamente quali fossero le relazioni del quiz col SEO. Anche se mi vengono in mente un paio di usi black hat (ma fessi) di questa limitazione di Google, la vera ragione per la quale vi ho dedicato un quiz è che smontando gli strumenti di Google si comprende sempre qualcosa in più del funzionamento del motore di ricerca e si possono notare fenomeni che possono insegnare qualcosa.

Per esempio, osservando i risultati della query sopra indicata si notano dei documenti in formato PDF che non vengono etichettati da Google come file PDF. Il che potrebbe indurre a congetturare che l’identificazione del formato di un file avvenga in una fase di analisi successiva a quella dell’indicizzazione oppure, altra ipotesi, che vi siano tipologie di formati PDF che l’algoritmo di Google non è in grado di riconoscere ancora.

Nel secondo caso, un approfondimento del fenomeno potrebbe portarci a scoprire se esistono tipologie di formati PDF da evitare quando desideriamo che gli stessi vengano indicizzati e valutati in quanto tali dal motore di ricerca.

Una ultima e più semplice relazione col SEO esiste, se includiamo nella cultura tipica di questa disciplina una corretta conoscenza degli operatori di ricerca dei motori.