Tag Archives: Singhal

Come funzionano Panda e Google: gli aspetti tecnici

Panda

Never say no to Panda!

Per chi ha seguito l’evolversi degli algoritmi di Google nel corso degli anni, Panda rappresenta una rivoluzione sotto molti aspetti.

L’aspetto che ritengo più interessante riguarda il fatto che Panda è il primo algoritmo il cui funzionamento viene spiegato con un grado di dettaglio molto alto, fino a qualche dettaglio matematico.

Di più, da Amit Singhal sono arrivate affermazioni che spiegano non solo il criterio seguito da Panda ma anche indicazioni sulla metodologiia di default seguita da Google per valutare i siti web e classificarli.

L’articolo su Wired.com

Il 3 marzo 2011, Wired.com pubblica un articolo dal titolo “The ‘Panda’ That Hates Farms: A Q&A With Google’s Top Search Engineers“.

Nell’articolo vengono intervistati Matt Cutts e Amit Singhal, ai quali vengono poste domande sugli obiettivi di Panda, sul metodo seguito per separare i buoni dai cattivi e sugli aspetti algoritmici dell’implementazione.

Consiglio la lettura dell’articolo a tutti coloro che vorrebbero approfondire un po’ di più il funzionamento di Panda.

Il metodo

Riassumendo quanto detto dai due portavoce di Google, ecco il metodo seguito:

  • viene preso un campione di siti web
  • vengono inviati a dei valutatori esterni
  • ai valutatori vengono poste domande quali
    • Saresti a tuo agio nel dare la tua carta di credito a questo sito?
    • Saresti a tuo agio a dare ai tuoi bambini le medicine indicate su questo sito?
    • Consideri questo sito autorevole?
    • Vedresti bene questo contenuto su una rivista?
    • Ci sono troppe pubblicità su questo sito?
  • in base alle valutazioni, ciascun sito del campione viene considerato più o meno cattivo
  • nello spazio a più dimensioni usato da Google per attribuire coordinate a ciascun sito conosciuto, viene tracciato un (iper)piano in modo che da un lato vi sia una maggioranza di siti considerati cattivi e dall’altro una maggioranza di siti considerati buoni
  • il piano separatore viene poi usato come classificatore di tutti i siti (non solo quelli valutati manualmente) presenti nello spazio a più dimensioni

Che cosa comporta ciò?

Per comprendere le implicazioni di tale approccio, bisogna porre attenzione alla differenza tra la valutazione dei siti campione e la posizione dei siti web (tutti) all’interno dello spazio.

La valutazione dei siti campione avviene sulla base di domande che non riguardano necessariamente specifiche caratteristiche dei siti web. La domanda “Daresti a questo sito la tua carta di credito?” non tenta di individuare una specifica caratteristica ma cerca invece di registrare una sensazione provata dal valutatore umano.

La metodologia non ha interesse a comprendere perché il valutatore esprima un giudizio ma si limita a prendere atto del giudizio stesso, delle sensazioni provate, dell’opinione positiva o negativa.

Queste valutazioni non incidono sulla posizione dei siti nello spazio. Tutti i siti possiedono delle coordinate in base ad altri fattori, che possiamo solo immaginare, e legati a caratteristiche più tecniche, oggettive e facilmente misurabili (contenuti, PageRank, backlink, autorevolezza, anzianità, ecc.).

Tutta la metodologia seguita si traduce dunque nel rispondere alla seguente domanda: “Che caratteristiche tecniche possiedono i siti fisicamente vicini a quelli che non ispirano fiducia o sensazioni positive nelle persone?“. Dove per “fisicamente” si intende “geometricamente”.

Per fare un esempio pratico delle conseguenze dell’approccio di Google, si potrebbe dire, estremizzando, che se la maggioranza dei siti considerati “cattivi” usasse uno sfondo color nero, allora qualunque sito con lo sfondo color nero sarebbe fisicamente più vicino alla “zona cattiva” delimitata dal piano separatore. Posto che il colore di sfondo sia uno dei fattori usato da Google per attribuire le coordinate ai siti web.

Il metodo è interessante in quanto permette di trasporre una classificazione basata sulle sensazioni e su giudizi umani di pochi siti campione in una classificazione di tutti i siti conosciuti dal motore, sulla base delle loro caratteristiche tecniche.

Per funzionare bene, ovviamente, il metodo deve poter far affidamento su un sistema che attribuisce una coordinata a ciascun sito web conosciuto sulla base di tanti parametri. Tanti: probabilmente molti di essi vanno oltre la nostra immaginazione.

Mi verrebbe da dire che l’intero sistema di valutazione funzionerebbe meglio se Google includesse tra gli elementi raccolti anche roba del tipo “indicazione di un numero verde” o la presenza di testi e frasi tipiche di chi rispetta i diritti dei consumatori.

Quanto ci azzecca Panda?

Panda ci azzecca molto, a mio giudizio. Una delle ragioni per le quali sono di questo parere è che ricordo quando, anni fa, Google annunciava pubblicamente sui forum dei (pesanti) cambi di algoritmo, rimanendo in attesa del feedback dei webmaster e SEO.

In quelle occasioni, il clima che si viveva sui forum era lo stesso di un pubblico linciaggio da parte delle vittime innocenti. Avete presente quando i cittadini si avviano con fiaccole e forconi verso il castello del Dr. Frankenstein? Quello.

Con Panda non è stato così, le reazioni dei proprietari dei siti colpiti sono state estremamente più soft di quelle osservate in passato. La sensazione è che l’introduzione dei vecchi algoritmi abbia fatto molte più vittime innocenti. Questo non significa che Panda non abbia fatto vittime; dico solo che magari le vittime colpite stavolta considerano sé stesse meno innocenti e con meno diritto di lamentela.

A questa congettura del tutto personale, si aggiunge anche il fatto che negli ultimi anni le metodologie seguite da Google per introdurre variazioni all’algoritmo, specie variazioni corpose e destinate ad interessare una grande percentuale delle query, comprendono fasi preliminari di test su campioni di utenti, dei quali viene stimata la soddisfazione. Va online ciò che gli utenti gradiscono di più.

Anche una certa sicurezza che traspare dalle parole di Singhal e Cutts lascia intendere che stavolta ci abbiano azzeccato. Singhal dice: “It’s really doing what we said it would do.”.

Generalizzazione

Singhal ha detto che per Panda hanno usato il loro “sistema di valutazione standard”, ad intendere che l’approccio seguito non è nuovo a Google ma rappresenta in realtà il sistema usato solitamente per classificare i siti web.

In altre parole, trovano un iperpiano che divida al meglio i buoni dai cattivi; la trasposizione moderna della riga verticale che si tracciava sulle lavagne delle scuole elementari, ma usando ben più di due dimensioni.

Tutto ciò mi porta a concludere che ad ottenere maggiore visibilità saranno sempre più i siti che mostreranno di essere vicini a chi si comporta meglio.

Sceglietevi il compagno di banco giusto.