Tag Archives: Google

L’inevitabile declino di Google+ e cos’è la macromyopia

Siccome nel momento in cui scrivo il tempo è tiranno, non ho ancora avuto modo di scrivere un post col mio parere su Google+, che ha ormai poco più di un mese di vita. Avrei tante cose da dire su questo nuovo approccio sociale di Google e attenderò pazientemente che il tempo a mia disposizione torni cospicuo.

Nel frattempo, però, mi limiterò a condividere qualche informazione sul ciclo fisiologico di visibilità che un grande prodotto come Google Plus solitamente segue. In questo modo sarà possibile fare qualche previsione sull’immediato futuro.

Date innanzitutto un’occhiata al grafico che segue, ridisegnato sulla base di quello che trovate nell’articolo “MacroMyopia and the technology hype cycle” di Don Dodge, che vi suggerisco caldamente di leggere.

Grafico che mostra Google+ nella fase di inizio del crollo post-picco

A volte un cartello 'You are here' chiarisce molte più cose di tanti discorsi

L’articolo continua, leggi il resto… »

Il formato WebP di Google e il movimento anti-JPEG

Nota: questo post è un esercizio per spiegare concetti complessi con parole semplici.

Nella sua crociata per velocizzare il Web, Google sta operando su diversi fronti, evangelizzando le masse, fornendo strumenti per ottenere siti web più reattivi e investendo in nuove tecnologie che promettono un Web più veloce e più facilmente fruibile.

Una delle nuove tecnologie sviluppate è il formato per immagini WebP, che nelle intenzioni di Google mira a sostituire l’ormai anziano formato JPEG. Per ragioni inspiegabili, Google ci informa che la pronuncia di “WebP” è “weppy”.

Visto che le tecnologie che stanno dietro il formato JPEG (e agli algoritmi di compressione in genere) sono una mia passione, ne approfitto per raccontare un po’ le caratteristiche del JPEG e quello che si prospetta un possibile futuro.

I ferri del mestiere

Cubo di metallo compressoPer introdurre il magico mondo della compressione mi limiterò ad indicare due semplici nozioni di base:

  • le ripetizioni di elementi simili sono più facilmente comprimibili rispetto ad elementi apparentemente casuali. Per esempio, molti algoritmi di compressione riescono a comprimere la stringa di caratteri “aaaaaaaa” più facilmente della stringa “*c_f9)Ql”.
  • alcuni algoritmi di compressione hanno l’obiettivo di riprodurre, in fase di decompressione, esattamente le informazioni originarie;
    altri algoritmi di compressione hanno invece l’obiettivo di riprodurre, in fase di decompressione, informazioni simili a quelle originarie (simili per l’occhio umano quando si tratta di immagini o video, simili all’orecchio quando si tratta di informazioni audio). Accettare una parziale perdita delle informazioni originarie consente di comprimere di più.

Il formato JPEG

Il formato JPEG è nato per comprimere le immagini accettendo una parziale perdita delle informazioni originarie (compressione detta lossy), compromesso che consente di ottenere compressioni maggiori a scapito della qualità dell’immagine decompressa, che non combacia più esattamente con l’immagine di partenza.

Tutti i formati di compressione che prevedono una perdita parziale delle informazioni originarie devono fare i conti con un aspetto critico della progettazione dell’algoritmo: decidere quali informazioni originarie vanno sacrificate e quali vanno mantenute.

Per la compressione delle immagini, questa decisione viene solitamente presa tenendo conto delle caratteristiche dell’occhio umano e della sua capacità di percepire luminosità e colori. L’idea di fondo è quella di accettare di perdere maggiori informazioni su quegli elementi visuali verso i quali l’occhio umano è meno sensibile.

Per esempio, nel formato JPEG:

  • essendo l’occhio umano più sensibile ai dettagli della luminosità rispetto ai dettagli del colore, le componenti di luminosità e di colore dell’immagine vengono separate. La componente della luminosità viene mantenuta inalterata mentre la componente del colore viene ridotta, per esempio prendendo la componente colore di quattro pixel adiacenti e conservando una loro semplice media. In questo modo la componente del colore è stata ridotta ad un quarto della quantità originaria.
  • essendo l’occhio umano in grado di notare più facilmente i piccoli dettagli su sfondi uniformi rispetto a molti piccoli dettagli contigui e accorpati, dei blocchetti rettangolari di pixel vengono scomposti con una formula matematica in grado di separare le informazioni sulle variazioni infrequenti (di luminosità o colore) dalle informazioni sulle variazioni frequenti, che sono più simili a semplice “rumore di fondo”. Queste ultime vengono poi divise per delle costanti in modo che alla fine si ottengano valori molti bassi: serie di zeri o di piccoli numeri interi che, come spiegato in “i ferri del mestiere”, essendo ripetizioni sono più facilmente comprimibili.

Una volta scartate le informazioni meno strategiche, i dati rimanenti vengono compressi con una variante di un classico algoritmo senza perdita di (ulteriori) informazioni, quello di Huffman.

E’ importante specificare che il formato JPEG permette di modificare diversi parametri del processo di compressione e che quanto descritto sopra è semplicemente un esempio di uno scenario tipico, non l’esatto e immutabile iter che la compressione deve seguire.

Limiti e futuro del formato JPEG

Col passare degli anni il formato JPEG ha risentito dell’età, in primo luogo perché sono nati algoritmi di compressione migliori e più sofisticati ed in secondo luogo perché ci si è accorti che se alcune piccole accortezze fossero state prese durante la progettazione del formato JPEG, l’algoritmo stesso avrebbe potuto conseguire risultati di compressione ben maggiori.

Queste accortezze non possono essere “aggiunte a forza” oggi nel formato JPEG, perché, come tutti i formati esistenti, ha dei limiti alla capacità di essere esteso senza perdere la compatibilità col passato.

Per esempio, grandi miglioramenti della compressione potrebbero essere ottenuti semplicemente sostituendo l’algoritmo Huffman con altri più moderni. Ma farlo significherebbe produrre file JPEG che non potrebbero essere decompressi (e quindi visualizzati) da tutti i software vecchi, in grado di gestire solo i file JPEG nei quali viene usato l’Huffman.

Dopo il JPEG sono nati decine di formati immagine in grado di garantire compressioni e qualità maggiori; uno di questi formati, il JPEG 2000, è stato progettato dalla stessa organizzazione che progettò il JPEG. Nessuno di questi nuovi formati si è diffuso fino al punto di riuscire a scalzare il JPEG.

La situazione, per riassumere, è che oggi possediamo tecnologie e algoritmi di compressione di gran lunga superiori rispetto a quelli che esistevano quando il formato JPEG è nato e che se fosse possibile sostituire magicamente tutte le JPEG sul Web in formati più moderni, otterremmo un Web più veloce e reattivo.

Proprio prefiggendosi l’obiettivo di ottenere un Web meno pesante, tra le aziende che hanno proposto nuovi formati immagine sostitutivi del JPEG c’è anche Google, col suo formato WebP.

Il formato WebP di Google

Logo WebPLe cose stanno così: il formato WebP è stato fortemente criticato in quanto comprime le immagini scartando informazioni utili all’occhio umano per percepire un’immagine quanto più simile a quella originaria.

In altre parole, quelle stesse informazioni che il formato JPEG tende a preservare, nel formato WebP possono invece andare perse in buona parte ed il risultato è che le immagini ricostruite in fase di decompressione possono apparire più sfocate rispetto all’originale.

Da un lato, Google decanta le lodi del formato mostrando statistiche che lasciano intendere la sua superiorità rispetto al JPEG, dall’altro esiste una comunità di informatici (in particolare esperti del codec video H.264) che fanno notare che le statistiche di Google non hanno tenuto conto degli aspetti “psicovisuali” (le informazioni e i dettagli che agli occhi umani rendono l’immagine più naturale e simile all’originale) nello stimare la qualità ottenuta dal formato WebP rispetto al JPEG.

Per farvi un’opinione tutta vostra, possono esservi utili i due seguenti link:

  • una pagina di Google, nella quale vengono comparate alcune immagini JPEG con le corrispettive WebP. Si noti però che la comparazione si focalizza sulla maggiore capacità di compressione del WebP a parità di qualità dell’immagine risultante. Potete vedere le immagini WebP solo con Chrome o con l’ultima versione beta di Opera in quanto, nel momento in cui scrivo, sono gli unici browser che supportano il nuovo formato di Google.
  • una pagina in cui si fanno le pulci al formato WebP, comparando una sua immagine con la corrispondente JPEG e con quello che si potrebbe ottenere comprimendola con lo stesso algoritmo usato per il formato video H.264 (“concorrente” del formato video VP8 di Google, sul quale WebP si basa). Per vostra comodità linko direttamente i tre risultati, trasformati in normali immagini PNG in modo che siano visualizzabili con qualunque browser: compressione JPEG, compressione H.264 e compressione WebP.

Il formato WebP, come ci si aspetterebbe, esce vincitore dalla prima comparazione e bastonato dalla seconda.

La politica pesa più della qualità?

Nel chiedermi che cosa ci vorrebbe per riuscire a sostituire gradualmente il formato JPEG sul Web e per rendere la rete un po’ più veloce, mi risponderei: politica.

La storia dei formati e dei protocolli è ricca di episodi che dimostrano che le tecnologie che si diffondono di più non sono necessariamente le migliori. A volte la loro diffusione è semplice conseguenza di accordi commerciali o politici, nati per spingere sul mercato un prodotto a discapito di competitor più performanti ma meno agguerriti lato business.

La graduale sostituzione del formato JPEG con un formato in grado di comprimere di più è un obiettivo ambizioso che potrebbe essere raggiunto, paradossalmente, a prescindere da quanto sia migliore la qualità delle nuove immagini. Si tratta di una situazione nella quale marketing e accordi commerciali potrebbero essere gli unici concreti strumenti per indurre software house, siti web, organizzazioni ed aziende ad adottare in massa un nuovo formato, qualunque esso sia.

Logo di OperaE’ di pochi giorni fa la notizia che Opera ha adottato WebP come formato immagine per il proprio servizio Opera Turbo, sostituendo il formato JPEG. Opera Turbo non è altro che un servizio di proxy messo a disposizione degli utenti del browser Opera: la richiesta di una pagina web arriva ai server di Opera, che scaricano la risorsa e la rispediscono all’utente dopo aver compresso maggiormente tutte le immagini presenti nella pagina (con perdità di qualità rispetto alle immagini pubblicate). Il servizio è particolarmente utile a tutti gli utenti che possiedono connessioni lente.

Fino a pochi giorni fa per l’ulteriore compressione delle immagini veniva usato il formato JPEG stesso, adesso viene usato il formato WebP. Una nota interessante riguarda il fatto che proprio sulla pagina sopra linkata, che annuncia la novità, è presente una comparazione di un’immagine JPEG ricompressa a qualità minore e ricompressa con WebP. La versione WebP sembra globalmente più nitida ma vi faccio notare l’involontario “lifting” della fronte della persona ritratta, che è correlabile alla perdita di dettagli messa in luce dai critici del nuovo formato.

L’adozione del formato WebP da parte di Opera Turbo non deve però trarre in inganno e passare come un indice della maggiore qualità del formato in sé; bisogna tenere conto di quanto Opera cercava: un algoritmo in grado di comprimere più del formato JPEG presentando una qualità globale maggiore. Il che significa che fino a quando i byte sono meno e la nitidezza complessiva dell’immagine è maggiore, per Opera Turbo è accettabile fare il lifting alle persone ritratte in foto.

Se il formato WebP dovesse diffondersi ulteriormente e dovesse venire supportato dai principali browser, tante persone ritratte sul Web potrebbero essere contente di questo utile antirughe informatico. E senza dover pagare un grafico Photoshop! 🙂

Brute-force verso Google e codice PHP per le disposizioni

Nel precedente articolo sui servizi nascosti o segreti di Google, Fabio Schenone aveva chiesto nei commenti quando avrei svolto un attacco brute-force.

Ho accolto il suggerimento di Fabio ed ho cercato URL di Google nella seguente forma, assegnando al parametro “tbm” tutte le possibili stringhe di tre o di quattro caratteri basate sull’alfabeto inglese:

http://www.google.com/search?q=test&hl=en&prmd=ivnsfd&source=lnms&tbm=XXXX&sa=X&oi=mode_link&ct=mode&cd=4

(per maggiori informazioni sull’URL sopra indicato vi invito a leggere le spiegazioni nel post precedente)

Quantità delle interrogazioni

Disposizioni con ripetizione (permutations)
Le possibili stringhe di testo lunghe tre caratteri, ciascuno dei quali può essere uno qualunque dei simboli dell’alfabeto inglese sono esattamente 17576 (26^3).

Le possibili stringhe di testo lunghe quattro caratteri, ciascuno dei quali può essere uno qualunque dei simboli dell’alfabeto inglese sono esattamente 456976 (26^4).

In totale ho dunque fatto 474552 interrogazioni, che non sono servite ad un fico secco perché non ho scoperto ulteriori servizi nascosti. Gli unici individuati rimangono dunque quelli osservati e pubblicati nel post precedente.

Codice PHP per le disposizioni

Oltre a disporre di una batteria di Xenu, per produrre tutte le stringhe/URL da interrogare ho sviluppato una semplice funzione PHP che produce l’elenco di disposizioni (con ripetizione) ottenibili. Non ho idea se mai mi servirà ancora in futuro, quindi ve la fornisco nella speranza che possa un giorno essere utile a qualcuno di voi.

Per esempio, chiamando la funzione con i seguenti parametri: permutations(“ab”, 3); si ottiene in output un array contenente le stringhe: aaa, aab, aba, abb, baa, bab, bba, bbb.

  /**
   * Permutations
   *
   * Returns an array of strings containing all the
   * ($alphabet ^ $output_length) permutations
   *
   * @alphabet (string|array) set of at least two elements to choose from
   * @output_length (int) the number of elements in each output string
   */
  function permutations ($alphabet, $output_length=1) {

    $output = array();

    if ($alphabet AND ($output_length > 0)) {

      // Handles both string alphabets and array alphabets
      if (is_string ($alphabet)) {
        $alphabet_length = strlen ($alphabet);
        $symbol = str_split ($alphabet);
      } elseif (is_array ($alphabet)) {
        $alphabet_length = count ($alphabet);
        $symbol = $alphabet;
      } else {
        return $output;
      }

      if ($alphabet_length < 2) return $output;


      // Creates a -1 index in order to avoid the out-of-bounds
      // warning during the last loop of the do-while structure
      $pointer = array_fill (-1, $output_length+1, 0);
      
      // How much iterations to perform
      $iterations = pow ($alphabet_length, $output_length);
  
      // To avoid all the "- 1"...
      $alphabet_length--;
      $output_length--;
  
      // Do the job
      for ($i=0; $i < $iterations; $i++) {
        $permutation = "";
        for ($c = 0; $c <= $output_length; $c++) {
          $permutation .= $symbol[$pointer[$c]];
        }
        $output[] = $permutation;
  
  
        // Updates the pointers
        $c = $output_length;
  
        do {
          $pointer[$c]++;
          if ($pointer[$c] <= $alphabet_length) {
            break;
          } else {
            $pointer[$c] = 0;
            $c--;
          }
        } while (TRUE);
      }
    }
    
    return $output;
  }

Hacking di Google: servizi nascosti, sconosciuti o futuri

Tutto quanto state per leggere è solo un gioco.

Smanettare nel codice di Google è sempre divertente. Osservando il codice HTML oppure certe convenzioni seguite per anni sui nomi di acuni file, emergono abitudini dell’azienda di Mountain View o caratteristiche che possono essere sfruttate per trovare informazioni interessanti.

Tra tutte, probabilmente le informazioni più ghiotte sono quelle relative a servizi non ancora pubblici ma previsti per il futuro.

Nei prossimi paragrafi vi condividerò i risultati di alcune delle ricerche che ho svolto, precisando che quanto ho trovato non corrisponde necessariamente a nuovi servizi o prodotti di Google ma potrebbero essere riferimenti a servizi pubblici che il sottoscritto non conosce o ricorda. 😛

Proprio per la suddetta ragione, vi chiederò di aiutarmi a capire se si tratta di servizi realmente nuovi o meno. 🙂

Logo dei servizi

Gli URL usati per i logo di Google sono sempre stati del tipo:

http://www.google.com/images/logos/nomeservizio_logo.gif

Vengono anche usate leggere variazioni nell’URL, per specificare le versioni di uno stesso logo in lingue diverse dall’inglese; tuttavia l’URL sopra indicato rimane quello principale e “canonico”.

Non si può escludere che prima di annunciare un nuovo prodotto, per esempio un nuovo motore di ricerca verticale oppure un nuovo servizio per le aziende, alcuni dei file necessari ad erogare il servizio vengano predisposti online con un po’ di anticipo.

Chissà che cosa si scoprirebbe se qualcuno provasse a testare l’esistenza di nuovi logo con alcune migliaia di accessi ad URL del tipo:

http://www.google.com/images/logos/ + parola + _logo.gif

Ho voluto approfittare dell’esistenza online di qualche dizionario inglese gratuito. Tra i tanti logo che ho beccato, io non conosco quelli che seguono. Mi dareste una mano a risalire ai servizi che li usano? I commenti del blog sono a vostra disposizione! 🙂

  • http://www.google.com/images/logos/new_logo.gif
  • http://www.google.com/images/logos/press_logo.gif
  • http://www.google.com/images/logos/beat_logo.gif
  • http://www.google.com/images/logos/storage_logo.gif
  • http://www.google.com/images/logos/agency_logo.gif
  • http://www.google.com/images/logos/shallow_directory_logo.gif (trovato in altro modo e sicuramente usato in passato)

New Google Logos

Sono riuscito a trovare qualche piccolo inizio facendo delle ricerche, ma non ho acquisito alcuna certezza sull’uso di quei logo. Ogni vostro contributo è benvenuto.

Identificatori dei motori verticali

Quando effettuate una ricerca su Google Web (vi consiglio di farne una su Google.com e proseguire nella lettura) appare a sinistra dei risultati una colonna con delle icone dedicate ai motori di ricerca verticali.

Cliccando su una qualunque delle icone, per esempio quella del motore delle News, l’URL della pagina visualizzata dal browser cambia e al suo interno il parametro “tbm” contiene una stringa di testo che identifica il motore di ricerca verticale selezionato, “nws” nel caso delle News:

http://www.google.com/search?q=test&hl=en&prmd=ivnsfd&source=lnms&tbm=nws&sa=X&oi=mode_link&ct=mode&cd=4

Se provate a modificare il valore “nws” in un altro identificatore di un motore di ricerca verticale, Google produrrà la pagina relativa. Potete provare cambiando “nws” con “mbl”, che è l’identificatore dei contenuti Realtime:

http://www.google.com/search?q=test&hl=en&prmd=ivnsfd&source=lnms&tbm=mbl&sa=X&oi=mode_link&ct=mode&cd=4

Errore HTTP 400 di GoogleChe succede se al parametro “tbm” viene assegnato un valore che non corrisponde ad un motore di ricerca verticale esistente? Google mostra un errore di tipo 400 (Bad Request) all’utente:

http://www.google.com/search?q=test&hl=en&prmd=ivnsfd&source=lnms&tbm=ciccio&sa=X&oi=mode_link&ct=mode&cd=4

Ravanando nel codice Javascript di Google, ho trovato un array che ospita valori destinati ad essere assegnati al parametro “tbm”, ovvero una lista di identificatori dei motori di ricerca. Sono tutti validi e accettati da Google, nel senso che non producono un errore di classe 400, tuttavia alcuni identificatori sono “inattivi” e i motori di ricerca richiamati non forniscono risultati.

Nella tabella che segue ho riassunto i codici conosciuti, quelli sconosciuti e alcune mie congetture basate su associazioni puramente arbitrarie e personali. Per tutti i codici, ho aggiunto un link all’URL dei risultati.

Codice Motore di ricerca Note
evn Sconosciuto Events?
frm Sconosciuto
ppl Sconosciuto People?
prc Sconosciuto
klg Sconosciuto Knol/Knowledge?
pts Patents
rcp Recipes
shop Shopping
vid Videos
nws News
mbl Realtime
bks Books
plcs Places
isch Images
blg Blogs
dsc Discussions

Voglio indirizzare la vostra attenzione sopratutto sulle congetture “People” (che è diverso da Google Profiles, che possiede un identificatore diverso da “ppl”) e “Knol/Knowledge“, perché un’associazione di questi concetti può essere fatta con quello che mostrerò di seguito.

Grafica delle icone

L’ultima fonte di informazioni riservate potrebbero essere le icone che Google usa per i servizi di ricerca. Fortunatamente, piuttosto che gestirle tutte con file a sé stanti, Google usa la buona tecnica degli Sprite CSS e quindi unisce tutte le icone dei servizi di ricerca in un’unica immagine.

Quella che segue è la versione dell’immagine che è stata usata quando Google ha introdotto per tutti gli utenti la barra laterale per la selezione del tipo di ricerca, nel maggio 2010:

http://www.google.com/images/nav_logo15.png
Icone inutilizzate

Come potete notare, tra le icone appaiono un punto di domanda verde e due omini stilizzati (che ricordano un po’ quelli di Myspace): si tratta dunque di servizi di ricerca già preventivati all’epoca da Google, mantenuti fino alla più recente versione dell’immagine, ma che non vengono mai mostrati agli utenti nella barra verticale.

Volendo concedermi un volo di fantasia e cercando a tutti i costi di associarli agli identificatori dei motori verticali illustrati pocanzi, mi verrebbe da dire che le due icone misteriose potrebbero essere associate rispettivamente a dei concetti quali “Know/Knowledge” e “People”.

Ma queste sono le mie congetture. Vi invito a fare le vostre specie se, a differenza del sottoscritto, avete notato l’uso di queste icone prima d’ora. 🙂

Approfondimenti

Se siete i classici smanettoni che voglio ulteriormente approfondire quanto Google tenta di tenere riservato, vi segnalo una persona che fino a poco tempo fa era considerato il vero esperto in materia: Tony Ruscoe. Il suo blog è ricco di indicazioni su come approcciare la ricerca di servizi non accessibili al pubblico.

Tony ha usato per anni diversi sistemi, differenti da quelli sfruttati da me e spiegati in questo post. Stanchi di ricevere continui dictionary attack, quelli di Google hanno alla fine pensato che sarebbe stata una buona idea accettare la sua candidatura nel Webmaster Team e l’hanno assunto nel 2010. Interrompendo di fatto le sue ricerche.

Come funzionano Panda e Google: gli aspetti tecnici

Panda

Never say no to Panda!

Per chi ha seguito l’evolversi degli algoritmi di Google nel corso degli anni, Panda rappresenta una rivoluzione sotto molti aspetti.

L’aspetto che ritengo più interessante riguarda il fatto che Panda è il primo algoritmo il cui funzionamento viene spiegato con un grado di dettaglio molto alto, fino a qualche dettaglio matematico.

Di più, da Amit Singhal sono arrivate affermazioni che spiegano non solo il criterio seguito da Panda ma anche indicazioni sulla metodologiia di default seguita da Google per valutare i siti web e classificarli.

L’articolo su Wired.com

Il 3 marzo 2011, Wired.com pubblica un articolo dal titolo “The ‘Panda’ That Hates Farms: A Q&A With Google’s Top Search Engineers“.

Nell’articolo vengono intervistati Matt Cutts e Amit Singhal, ai quali vengono poste domande sugli obiettivi di Panda, sul metodo seguito per separare i buoni dai cattivi e sugli aspetti algoritmici dell’implementazione.

Consiglio la lettura dell’articolo a tutti coloro che vorrebbero approfondire un po’ di più il funzionamento di Panda.

Il metodo

Riassumendo quanto detto dai due portavoce di Google, ecco il metodo seguito:

  • viene preso un campione di siti web
  • vengono inviati a dei valutatori esterni
  • ai valutatori vengono poste domande quali
    • Saresti a tuo agio nel dare la tua carta di credito a questo sito?
    • Saresti a tuo agio a dare ai tuoi bambini le medicine indicate su questo sito?
    • Consideri questo sito autorevole?
    • Vedresti bene questo contenuto su una rivista?
    • Ci sono troppe pubblicità su questo sito?
  • in base alle valutazioni, ciascun sito del campione viene considerato più o meno cattivo
  • nello spazio a più dimensioni usato da Google per attribuire coordinate a ciascun sito conosciuto, viene tracciato un (iper)piano in modo che da un lato vi sia una maggioranza di siti considerati cattivi e dall’altro una maggioranza di siti considerati buoni
  • il piano separatore viene poi usato come classificatore di tutti i siti (non solo quelli valutati manualmente) presenti nello spazio a più dimensioni

Che cosa comporta ciò?

Per comprendere le implicazioni di tale approccio, bisogna porre attenzione alla differenza tra la valutazione dei siti campione e la posizione dei siti web (tutti) all’interno dello spazio.

La valutazione dei siti campione avviene sulla base di domande che non riguardano necessariamente specifiche caratteristiche dei siti web. La domanda “Daresti a questo sito la tua carta di credito?” non tenta di individuare una specifica caratteristica ma cerca invece di registrare una sensazione provata dal valutatore umano.

La metodologia non ha interesse a comprendere perché il valutatore esprima un giudizio ma si limita a prendere atto del giudizio stesso, delle sensazioni provate, dell’opinione positiva o negativa.

Queste valutazioni non incidono sulla posizione dei siti nello spazio. Tutti i siti possiedono delle coordinate in base ad altri fattori, che possiamo solo immaginare, e legati a caratteristiche più tecniche, oggettive e facilmente misurabili (contenuti, PageRank, backlink, autorevolezza, anzianità, ecc.).

Tutta la metodologia seguita si traduce dunque nel rispondere alla seguente domanda: “Che caratteristiche tecniche possiedono i siti fisicamente vicini a quelli che non ispirano fiducia o sensazioni positive nelle persone?“. Dove per “fisicamente” si intende “geometricamente”.

Per fare un esempio pratico delle conseguenze dell’approccio di Google, si potrebbe dire, estremizzando, che se la maggioranza dei siti considerati “cattivi” usasse uno sfondo color nero, allora qualunque sito con lo sfondo color nero sarebbe fisicamente più vicino alla “zona cattiva” delimitata dal piano separatore. Posto che il colore di sfondo sia uno dei fattori usato da Google per attribuire le coordinate ai siti web.

Il metodo è interessante in quanto permette di trasporre una classificazione basata sulle sensazioni e su giudizi umani di pochi siti campione in una classificazione di tutti i siti conosciuti dal motore, sulla base delle loro caratteristiche tecniche.

Per funzionare bene, ovviamente, il metodo deve poter far affidamento su un sistema che attribuisce una coordinata a ciascun sito web conosciuto sulla base di tanti parametri. Tanti: probabilmente molti di essi vanno oltre la nostra immaginazione.

Mi verrebbe da dire che l’intero sistema di valutazione funzionerebbe meglio se Google includesse tra gli elementi raccolti anche roba del tipo “indicazione di un numero verde” o la presenza di testi e frasi tipiche di chi rispetta i diritti dei consumatori.

Quanto ci azzecca Panda?

Panda ci azzecca molto, a mio giudizio. Una delle ragioni per le quali sono di questo parere è che ricordo quando, anni fa, Google annunciava pubblicamente sui forum dei (pesanti) cambi di algoritmo, rimanendo in attesa del feedback dei webmaster e SEO.

In quelle occasioni, il clima che si viveva sui forum era lo stesso di un pubblico linciaggio da parte delle vittime innocenti. Avete presente quando i cittadini si avviano con fiaccole e forconi verso il castello del Dr. Frankenstein? Quello.

Con Panda non è stato così, le reazioni dei proprietari dei siti colpiti sono state estremamente più soft di quelle osservate in passato. La sensazione è che l’introduzione dei vecchi algoritmi abbia fatto molte più vittime innocenti. Questo non significa che Panda non abbia fatto vittime; dico solo che magari le vittime colpite stavolta considerano sé stesse meno innocenti e con meno diritto di lamentela.

A questa congettura del tutto personale, si aggiunge anche il fatto che negli ultimi anni le metodologie seguite da Google per introdurre variazioni all’algoritmo, specie variazioni corpose e destinate ad interessare una grande percentuale delle query, comprendono fasi preliminari di test su campioni di utenti, dei quali viene stimata la soddisfazione. Va online ciò che gli utenti gradiscono di più.

Anche una certa sicurezza che traspare dalle parole di Singhal e Cutts lascia intendere che stavolta ci abbiano azzeccato. Singhal dice: “It’s really doing what we said it would do.”.

Generalizzazione

Singhal ha detto che per Panda hanno usato il loro “sistema di valutazione standard”, ad intendere che l’approccio seguito non è nuovo a Google ma rappresenta in realtà il sistema usato solitamente per classificare i siti web.

In altre parole, trovano un iperpiano che divida al meglio i buoni dai cattivi; la trasposizione moderna della riga verticale che si tracciava sulle lavagne delle scuole elementari, ma usando ben più di due dimensioni.

Tutto ciò mi porta a concludere che ad ottenere maggiore visibilità saranno sempre più i siti che mostreranno di essere vicini a chi si comporta meglio.

Sceglietevi il compagno di banco giusto.