Post recenti
Commenti recenti
- I Principali Test per un Sito Web in Ottica SEO - Ingegnerealbano.com on Come calcolare la distribuzione del “PageRank” tra le pagine di un sito
- SEO e keywords: esistono strategie e tecniche efficaci? | SERIAL EYE on Benedetta SEO, maledetta SEO
- LowLevel on Continuare a smontare Google: un’altra scoperta SEO
Tutti i post
-
Questa opera di Enrico Altavilla è concessa in licenza sotto la Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Unported.
Ciò che realmente Google vede
Per anni i SEO hanno ottimizzato le pagine web sapendo che certi elementi, che fossero testi o link, era valutati maggiormente dai motori di ricerca se inseriti in cima alla pagina.
In realtà, tuttavia, piuttosto che “in cima alla pagina” si è sempre detto “in cima al codice HTML”, perché si è sempre creduto che la comprensione dei motori di ricerca fosse basilare e che per un algoritmo il concetto di “posizione di un elemento all’interno della pagina” dovesse essere necessariamente semplificato in “posizione all’interno del codice”.
Però adesso siamo nel 2011 (beh, per essere precisi sto scrivendo questo post nel 2011) ed è opportuno rivedere le convinzioni che ci siamo portati dietro per anni. Forse c’è una sorpresa.
Instant Preview
Instant Preview è il nome che Google ha scelto per il proprio servizio di miniature (thumbnail) che affiancano i risultati delle ricerche.
Cliccando su una icona a forma di lente di ingrandimento posta a fianco di ciascun risultato, appare uno screenshot della pagina a cui il risultato fa riferimento. La cosa più interessante, però, è che Google riesce ad evidenziare in tempo reale all’interno dello screenshot la zona della pagina web che contiene le parole cercate dall’utente, usando un rettangolo arancione.
Come fa Google a conoscere la posizione del testo cercato dall’utente all’interno della miniatura? E come fa ad evidenziare questa informazione in tempo reale?
Va escluso a priori che venga usato in tempo reale un sistema di riconoscimento dei caratteri (OCR) all’interno dell’immagine, in quanto eccessivamente lento e poco adattabile alla mole di ricerche operate dal motore.
E’ invece molto più probabile che solo in fase di creazione dello screenshot Google provveda ad usare un algoritmo di OCR, per poi conservare in archivio la posizione (X e Y) delle parole visibili sulla pagina.
Ricordate questo punto: la reale posizione delle parole potrebbe essere archiviata.
In fase di visualizzazione all’utente Google mostra l’immagine e, partendo dalle posizioni delle parole all’interno dello screenshot (che deve conoscere già), calcola la posizione e la dimensione che il rettangolo dovrà avere e lo sovraimpone all’immagine attraverso una funzione JavaScript.
La precisione del calcolo delle posizioni
Da qualche evidenza, ho l’impressione che le posizioni memorizzate non facciano riferimento alle singole parole ma ad intere frasi o paragrafi. Avrebbe anche un senso in termini di ottimizzazione delle risorse a disposizione del motore di ricerca.
Vi invito a dare un’occhiata all’immagine che segue. Nel mio articolo sul funzionamento dell’algoritmo Panda, è presente in cima l’immagine di un Panda accompagnata da una didascalia che recita “Never say no to Panda!”. Questo testo è in cima al codice HTML (sopra il primo paragrafo di testo del post) ma visivamente mostrato sotto l’immagine, ovvero più in basso e a destra rispetto all’inizio del testo dell’articolo.
Cercando su Google [site:www.lowlevel.it “never say no to panda”], il rettangolo che evidenzia la posizione del testo all’interno della pagina racchiude correttamente la frase cercata e anche i primi paragrafi di testo che, nel codice, la seguono.
La precisione con la quale il rettangolo racchiude i testi cercati è notevole e la differenza di posizione (fisica e visuale) viene gestita bene.
La gestione dei testi nascosti
Il prossimo passo per comprendere dove possa arrivare la bontà del sistema di riconoscimento di Google è quello di tentare di capire come si comporta nei confronti dei testi invisibili, anche quelli semplicemente “a comparsa” che popolano il web (si pensi a menu di navigazione o a testi mostrati attraverso effetti AJAX).
La ricerca [site:www.plus2net.com/javascript_tutorial/hide-layer2.php “message box”] mostra un Instant Preview di una pagina nella quale il testo “Message Box” è presente ma invisibile di default.
La miniatura prodotta da Instant Preview è ritagliata in modo tale da indurre a credere che il testo invisibile non concorra a definire il perimetro dello screenshot da effettuare. Altre ricerche hanno mostrato che la zona in cui risiede un testo invisibile di default non viene mai evidenziata col rettangolo arancione, a far intendere che il riconoscimento dei testi avviene tenendo conto di eventuali layer non visibili.
Una riprova della bontà del sistema giunge dall’analisi della ricerca [site:www.easywayserver.com/blog/javascript-show-hide-layers-in-html/ “demo” “layer 1” “layer 2” “layer 3”], che mostra il testo cercato in quanto visualizzato di default sulla pagina, benché teoricamente nascondibile dall’utente cliccando su alcuni pulsanti.
Congetture finali
A quanto pare Google possiede la tecnologia per sapere in tempo reale (durante una ricerca) se i testi cercati dall’utente sono visivamente presenti sulla pagina, facendo uso di un algoritmo di riconoscimento e, con tutta probabilità, di un sistema che prevede l’immagazzinamento di informazioni sulla reale visibilità e posizione dei testi.
Quanto diffusamente potrebbe essere applicato questa analisi ai miliardi di pagine web perlustrate dal motore di ricerca? A questa domanda risponde Google stesso su questa pagina dedicata ad Instant Preview:
In general, Google updates the Instant Preview snapshot as part of our web crawling process. When we don’t have a cached preview image (which primarily happens when we can’t fetch the contents of important resources), we may choose to create a preview image on-the-fly based on a user’s request.
Per quanto non si possano trarre conclusioni certe, a mio parere si rafforza l’idea che la tecnologia per dare peso a ciò che realmente viene mostrato agli utenti esista e possa essere già applicata in maniera estesa.
Progettare un querybot per posizionarsi su Google Suggest
Riprendo l’idea del posizionamento su Google Suggest introdotta in un articolo precedente per impostare la progettazione di un querybot per la simulazione di ricerche su Google.
Posto che l’aumento di visibilità di una query su Google Suggest può essere conseguenza di fenomeni che vanno ben oltre l’incremento di ricerche della query, ho ritenuto comunque opportuno progettare un sistema che produca un volume minimo di ricerche sulla query da posizionare.
Questo è il comportamento che vorrò dare al querybot:
- una distribuzione naturale delle ricerche durante la giornata
- la simulazione di un affinamento della ricerca: prima [keyword], poi [keyword brand]
- la simulazione del click sul link che punta al sito del brand (possibilmente senza sporcare le statistiche del sito con una reale visita)
Il primo dei comportamenti indicati l’ho ottenuto abbozzando graficamente una distribuzione realistica degli accessi dai motori di ricerca durante l’arco di una giornata (ho tratto ispirazione dai reali accessi di un sito) e sfruttandola come base per distribuire le query automatizzate.
Il querybot verrà chiamato da un cronjob e ad ogni chiamata effettuerà X query, con X che varia a seconda della fascia oraria e a seconda della quantità giornaliera di query che si intende raggiungere.
Per semplificare il calcolo di X, ho usato un semplice foglio excel, il cui risultato potete osservare nell’immagine allegata al post.
Per calcolare il valore “Queries per script call”, è sufficiente fornire le seguenti informazioni:
Volume of daily queries to produce: la quantità complessiva di query giornaliere da effettuare. Tale quantità va calcolata in base al totale di query mensili che si desiderano e, per essere perfettini, dovrebbe in teoria essere variabile per simulare la diversa affluenza degli utenti sul web (e sui motori) durante l’arco della settimana. Ma per il momento mi accontenterò della simulazione delle fasce orarie.
Total activity in 24h: questa è la somma dei valori provenienti dal grafico “Hour activity”, che rappresenta una distribuzione abbozzata delle ricerche degli utenti nell’arco della giornata. I valori variano da zero (nessuna attività) a dieci (attività massima).
Script called every X minutes: questo dato indica ogni quanti minuti lo script per la simulazione delle ricerche verrà chiamato dal cron.
Immesse queste informazioni, la colonna “Queries per script call” (QSC) viene popolata con la quantità di query che lo script dovrà effettuare ad ogni chiamata.
Si noti che i valori QSC sono con virgola ma che ciò non rappresenterà un problema in fase di implementazione. Per esempio, se il QSC di una fascia oraria è 2,824858757, ad ogni chiamata lo script effettuerà due query (la parte intera di QSC) più una query condizionale, con probabilità pari a 0,824858757.
Tenuto conto che lo script verrà chiamato diverse volte durante la stessa ora, le query condizionali produrranno più o meno la quantità complessiva di query giornaliere che si desiderano raggiungere.
Il sistema progettato ha il vantaggio di mantenere fissa la frequenza di lanci dello script (così mi risparmio la modifica del cronjob) producendo senza difficoltà la quantità di query desiderata, che potrà anche variare nel tempo nel caso in cui dovessero cambiare le esigenze sui volumi da produrre.
Come funzionano Panda e Google: gli aspetti tecnici

Never say no to Panda!
L’aspetto che ritengo più interessante riguarda il fatto che Panda è il primo algoritmo il cui funzionamento viene spiegato con un grado di dettaglio molto alto, fino a qualche dettaglio matematico.
Di più, da Amit Singhal sono arrivate affermazioni che spiegano non solo il criterio seguito da Panda ma anche indicazioni sulla metodologiia di default seguita da Google per valutare i siti web e classificarli.
L’articolo su Wired.com
Il 3 marzo 2011, Wired.com pubblica un articolo dal titolo “The ‘Panda’ That Hates Farms: A Q&A With Google’s Top Search Engineers“.
Nell’articolo vengono intervistati Matt Cutts e Amit Singhal, ai quali vengono poste domande sugli obiettivi di Panda, sul metodo seguito per separare i buoni dai cattivi e sugli aspetti algoritmici dell’implementazione.
Consiglio la lettura dell’articolo a tutti coloro che vorrebbero approfondire un po’ di più il funzionamento di Panda.
Il metodo
Riassumendo quanto detto dai due portavoce di Google, ecco il metodo seguito:
- viene preso un campione di siti web
- vengono inviati a dei valutatori esterni
- ai valutatori vengono poste domande quali
- Saresti a tuo agio nel dare la tua carta di credito a questo sito?
- Saresti a tuo agio a dare ai tuoi bambini le medicine indicate su questo sito?
- Consideri questo sito autorevole?
- Vedresti bene questo contenuto su una rivista?
- Ci sono troppe pubblicità su questo sito?
- in base alle valutazioni, ciascun sito del campione viene considerato più o meno cattivo
- nello spazio a più dimensioni usato da Google per attribuire coordinate a ciascun sito conosciuto, viene tracciato un (iper)piano in modo che da un lato vi sia una maggioranza di siti considerati cattivi e dall’altro una maggioranza di siti considerati buoni
- il piano separatore viene poi usato come classificatore di tutti i siti (non solo quelli valutati manualmente) presenti nello spazio a più dimensioni
Che cosa comporta ciò?
Per comprendere le implicazioni di tale approccio, bisogna porre attenzione alla differenza tra la valutazione dei siti campione e la posizione dei siti web (tutti) all’interno dello spazio.
La valutazione dei siti campione avviene sulla base di domande che non riguardano necessariamente specifiche caratteristiche dei siti web. La domanda “Daresti a questo sito la tua carta di credito?” non tenta di individuare una specifica caratteristica ma cerca invece di registrare una sensazione provata dal valutatore umano.
La metodologia non ha interesse a comprendere perché il valutatore esprima un giudizio ma si limita a prendere atto del giudizio stesso, delle sensazioni provate, dell’opinione positiva o negativa.
Queste valutazioni non incidono sulla posizione dei siti nello spazio. Tutti i siti possiedono delle coordinate in base ad altri fattori, che possiamo solo immaginare, e legati a caratteristiche più tecniche, oggettive e facilmente misurabili (contenuti, PageRank, backlink, autorevolezza, anzianità, ecc.).
Tutta la metodologia seguita si traduce dunque nel rispondere alla seguente domanda: “Che caratteristiche tecniche possiedono i siti fisicamente vicini a quelli che non ispirano fiducia o sensazioni positive nelle persone?“. Dove per “fisicamente” si intende “geometricamente”.
Per fare un esempio pratico delle conseguenze dell’approccio di Google, si potrebbe dire, estremizzando, che se la maggioranza dei siti considerati “cattivi” usasse uno sfondo color nero, allora qualunque sito con lo sfondo color nero sarebbe fisicamente più vicino alla “zona cattiva” delimitata dal piano separatore. Posto che il colore di sfondo sia uno dei fattori usato da Google per attribuire le coordinate ai siti web.
Il metodo è interessante in quanto permette di trasporre una classificazione basata sulle sensazioni e su giudizi umani di pochi siti campione in una classificazione di tutti i siti conosciuti dal motore, sulla base delle loro caratteristiche tecniche.
Per funzionare bene, ovviamente, il metodo deve poter far affidamento su un sistema che attribuisce una coordinata a ciascun sito web conosciuto sulla base di tanti parametri. Tanti: probabilmente molti di essi vanno oltre la nostra immaginazione.
Mi verrebbe da dire che l’intero sistema di valutazione funzionerebbe meglio se Google includesse tra gli elementi raccolti anche roba del tipo “indicazione di un numero verde” o la presenza di testi e frasi tipiche di chi rispetta i diritti dei consumatori.
Quanto ci azzecca Panda?
Panda ci azzecca molto, a mio giudizio. Una delle ragioni per le quali sono di questo parere è che ricordo quando, anni fa, Google annunciava pubblicamente sui forum dei (pesanti) cambi di algoritmo, rimanendo in attesa del feedback dei webmaster e SEO.
In quelle occasioni, il clima che si viveva sui forum era lo stesso di un pubblico linciaggio da parte delle vittime innocenti. Avete presente quando i cittadini si avviano con fiaccole e forconi verso il castello del Dr. Frankenstein? Quello.
Con Panda non è stato così, le reazioni dei proprietari dei siti colpiti sono state estremamente più soft di quelle osservate in passato. La sensazione è che l’introduzione dei vecchi algoritmi abbia fatto molte più vittime innocenti. Questo non significa che Panda non abbia fatto vittime; dico solo che magari le vittime colpite stavolta considerano sé stesse meno innocenti e con meno diritto di lamentela.
A questa congettura del tutto personale, si aggiunge anche il fatto che negli ultimi anni le metodologie seguite da Google per introdurre variazioni all’algoritmo, specie variazioni corpose e destinate ad interessare una grande percentuale delle query, comprendono fasi preliminari di test su campioni di utenti, dei quali viene stimata la soddisfazione. Va online ciò che gli utenti gradiscono di più.
Anche una certa sicurezza che traspare dalle parole di Singhal e Cutts lascia intendere che stavolta ci abbiano azzeccato. Singhal dice: “It’s really doing what we said it would do.”.
Generalizzazione
Singhal ha detto che per Panda hanno usato il loro “sistema di valutazione standard”, ad intendere che l’approccio seguito non è nuovo a Google ma rappresenta in realtà il sistema usato solitamente per classificare i siti web.
In altre parole, trovano un iperpiano che divida al meglio i buoni dai cattivi; la trasposizione moderna della riga verticale che si tracciava sulle lavagne delle scuole elementari, ma usando ben più di due dimensioni.
Tutto ciò mi porta a concludere che ad ottenere maggiore visibilità saranno sempre più i siti che mostreranno di essere vicini a chi si comporta meglio.
Sceglietevi il compagno di banco giusto.
Lista di siti SEO geniali, pazzi e irriverenti
Nel corso degli anni ho notato con piacere l’aumentare di risorse per SEO dal tocco decisamente informale. Molte di esse mi sono state segnalate da Giacomo Pelagatti, che è un vero esperto nello scovare siti irriverenti e fuori di melone.
Ecco, “SEO fuori di melone” sarebbe stato un buon titolo alternativo per questo post.
Approfittando del clima scherzoso tipico del primo d’aprile, vi elenco dunque le risorse SEO che a mio parere meritano di essere visitate almeno una volta nella vita professionale di un qualunque searchmarkettaro.
SEO Mofo
(“mofo” è l’abbreviazione di motherfucker, per inciso)
Col payoff “World’s greatest SEO” ed uno snippet su Google fatto in ASCII Art, SEO Mofo si contraddistingue per la pubblicazione di numerosi test SEO e per essere perennemente incazzato col mondo, con Google e con chiunque gli stia sulle scatole.
Al di là dell’approccio irriverente ed anarchico, i test svolti sono davvero originali, a volte con approccio black hat, e il sito merita di essere seguito.
L’unica cosa che non gli perdono è l’uso di un’immagine di Calvin che orina sul logo del sito.
Matt Kazz
Matt Kazz è una gloria SEO tutta italiana. I suoi post rappresentano un raro esempio di comicità surreal-demenziale dedicata al SEO e al web marketing in genere.
Vi segnalo il suo articolo sulla reazione di Facebook al famigerato pulsante +1 di Google e vi raccomando di farvi un giro sul sito se siete estimatori di questo tipo di verve comica.
SEO Cock Stars
Scoperto da pochissimo, e dall’archivio di articoli ancora poco nutrito, SEO Cock Stars merita di essere osservato per comprendere se ha sufficiente potenziale da eguagliare nel tempo Matt Kazz.
Nel frattempo, se siete stufi di social media, date un’occhiata alla sua pagina sui socialist media.
SEO ROBOT
Il giro turistico fa nuovamente tappa in Italia per segnalarvi una pagina singola, la più delirante che io abbia mai letto sul SEO.
La pagina inizia proponendo un servizio SEO, che per la precisione è “IL MEGA SITO DISTRUTTORE CON ROBOT SEO POTENTISSIMO CHE SPACCA TUTTI”, e il delirio continua prendendo in giro la comunicazione “alpinistica” di Madri Internet Marketing. Il tutto intervallato da diverse righe che disquisiscono sull’annosa ambiguità tra “staj” e “steig”.
Se tutto ciò non bastasse, sappiate che qualche contenuto e battura sono di palese matrice sessuale (cito: “[…] potenza e inarrestabilità del nostro SEO, grosso e duro!”).
The Church of Google
Rassicurandovi sul fatto che si tratta di uno scherzo, vi segnalo anche il sito della Chiesa di Google, con tanto di elenco delle prove che dimostrano la natura divina del motore di ricerca.
Mi limito a citare l’ottava prova, che definirei inoppugnabile:
According to Google Trends, the term “Google” is searched for more than the terms “God”, “Jesus”, “Allah”, “Buddha”, “Christianity”, “Islam”, “Buddhism” and “Judaism” combined.
Ne conoscete altri?
Se qualcuno di voi conosce altri siti SEO “fuori di melone”, i commenti sono aperti per accogliere i vostri contributi! 🙂
Google: our like button is not a like button
Stavo leggendo con attenzione i testi della pagina di Google +1 e l’unica considerazione che mi viene in mente di fare è la seguente: è dura spiegare che cosa è senza usare il verbo like, eh? 😀
In bocca al lupo per l’ennesimo tentativo.