Tutto quello che (non) sappiamo su Google Hummingbird

Hummingbird

Una persona mi ha chiesto come mai, tra i post di LowLevel.it dell’ultimo periodo, non ho pubblicato nulla su Hummingbird (in italiano sarebbe “colibrì”), l’update di Google annunciato nel settembre 2013 e apparentemente dedicato all’analisi delle query. Di questa nuova tecnologia non si sa quasi niente di teorico e assolutamente niente di concreto.

La ragione per la quale me ne sono rimasto zitto è che i fenomeni SEO sociali che solitamente si innescano con l’annuncio di un nuovo algoritmo di Google non mostrano un lato particolarmente felice del nostro settore e questo scenario mi demotiva a scrivere.

Le cose stanno così: la volontà di fare pageview a tutti i costi induce i blogger a cavalcare l’onda della novità e, in assenza di informazioni, a trasformarsi in produttori industriali di minchiate col botto.

Adesso non sono certo che l’espressione tecnica “minchiate col botto” renda abbastanza l’idea e quindi ho deciso di scrivere questo post per affrontare un po’ il tema della qualità dell’informazione SEO online e per spiegare che, rifiutandosi di saltare sul carrozzone del circo equestre dei SEO blogghettari d’assalto, si evita di produrre ulteriori congetture strampalate con cui fuorviare gli assetati lettori che si abbeverano a qualunque fonte gli capiti sotto tiro.

In certi casi, si contribuisce di più alla cultura di un settore standosene zitti.

E’ trascorso un bel po’ di tempo da quanto Hummingbird è stato annunciato ma le discussioni e congetture su di esso non si sono placate. Di seguito farò il punto sull’argomento e proporrò le mie considerazioni su quanto male facciamo a noi stessi quando diffondiamo fantasie basate sul nulla.

E chissà se, tra un vaneggiamento e l’altro, qualcosa di interessante e concreto su Hummingbird non possa venir fuori lo stesso…

Quel poco che sappiamo di Hummingbird

Hummingbird è stato rivelato al pubblico il 26 settembre 2013, durante una conferenza che celebrava i quindici anni di Google. In questa occasione è stato anche aggiunto che la nuova tecnologia veniva già usata da un po’ di tempo (da uno a tre mesi a seconda di chi ha riportato l’informazione).

La tecnologia è stata sviluppata per dotarsi di un modo migliore di analizzare le query degli utenti e di comprendere con maggiore precisione che cosa gli utenti desiderano.

Il ricorso ad Hummingbird si è reso necessario perché il modo con cui gli utenti interagiscono con i servizi di ricerca sta cambiando e col tempo aumenterà sempre più la percentuale di query pronunciate a voce attraverso dispositivi mobile, i cui contenuti sono profondamente diversi rispetto a quelli delle query digitate con una tastiera.

Il fatto che nessuno si sia accorto che la tecnologia veniva usata già da tempo stride col fatto che Hummingbird rappresenta, secondo quanto dice Amit Singhal, la più grande rivisitazione della metodologia di analisi delle ricerche. Dalla sua introduzione, Hummingbird ha avuto infatti influenza su oltre il 90% delle ricerche fatte dagli utenti.

Una prima lezione da trarre è che non necessariamente un grande cambiamento tecnologico produce effetti diretti e dirompenti sui risultati di ricerca. Va inoltre considerato che è più probabile che le migliorie maggiori siano avvenute nei risultati di ricerca scaturiti da query di long tail, solitamente poco monitorate dai SEO.

La relazione con la semantica

Prima di addentrarci nei dettagli, è bene chiarire un primo punto sulla natura di Hummingbird, visto che molte persone si son chieste se questo nuovo algoritmo sia correlato a nuove capacità di analisi semantica da parte di Google.

La risposta dipende molto da cosa può essere definito “approccio semantico” tra i tanti metodi di analisi dei dati che Google opera.

Se usiamo una definizione di “approccio semantico” estremamente larga, per esempio “qualsiasi metodo che parta dai testi per produrne una rappresentazione più astratta”, allora possiamo considerare “approcci semantici” pressocché tutti gli algoritmi di Google adibiti alla valutazione e alla gestione dei testi, Hummingbird compreso. Tuttavia, facendo così, non potremmo considerare il legame tra semantica e Hummingbird più stretto di quello che esiste tra la semantica e qualsiasi altro algoritmo di analisi dei testi usato da Google.

Definizioni di “approccio semantico” più strette, invece, non permetterebbero di considerare Hummingbird un algoritmo focalizzato su un’analisi semantica dei testi. Per esempio, non sappiamo se Hummingbird analizza le parole delle query sfruttando le entità del Knowledge Graph e se la nostra definizione di “approccio semantico” pretendesse lo sfruttamento di un database di conoscenza contenente entità e relazioni tra esse, allora Hummingbird potrebbe anche non rientrare nella definizione.

Per evitare inutili disquisizioni sul sesso degli angeli, diciamo che Hummingbird aiuta sicuramente a comprendere meglio l’oggetto a cui l’utente è interessato e pertanto lo consideriamo un algoritmo in grado di far emergere significato più chiaramente di quanto facessero gli approcci precedenti. Insomma, se lo si vuole definire inerente l’analisi semantica del testo, non diciamo castronerie.

Non tutto è ranking

Nella visione SEO degli algoritmi di Google, dove tutto viene ricondotto al ranking sia per interesse sia per la necessità di semplificare oltre ogni buonsenso una complessa macchina che si nutre di libri di cibernetica e insalate di matematica, è difficile insinuare l’idea che un algoritmo di Google possa anche non avere nulla a che fare col ranking.

E’ difatti diffusa l’espressione “Google ha cambiato l’algoritmo”, come se esistesse davvero un singolo algoritmo o come se ne esistesse uno principale.

E’ certo che Hummingbird abbia un’influenza sul ranking, ovvero con i criteri di selezione e ordinamento dei risultati delle ricerche, ma questo non implica che sia un algoritmo di ranking, ovvero che si occupi di ordinare i risultati tra loro prima che vengano mostrati agli utenti.

Pressoché tutte le attività che Google svolge a monte della fase di ranking (crawling, indicizzazione, canonicalizzazione, ecc.) sono infatti state progettate per acquisire, analizzare e trasformare dati che verranno sfruttati alla fine del processo per dare risposte agli utenti.

L’esempio più semplice da fare è quello dell’attività di crawling, che è necessaria per acquisire i contenuti dei documenti. Se un documento non viene richiesto dallo spider, i suoi contenuti non potranno dare un contributo alla fase di ranking finale. Quindi gli algoritmi usati durante la fase di crawling hanno un’influenza indiretta su quello che al termine dell’intero processo finirà nelle SERP ma non sono algoritmi di ranking, perché la loro sfera di competenza è circoscritta alle attività degli spider, non alle risposte da dare agli utenti.

Bisogna pure tener conto che oltre agli algoritmi esiste anche l’infrastruttura grazie alla quale gli algoritmi funzionano. Per esempio, l’update Caffeine di Google, lanciato nel 2010, non è stato solo un aggiornamento degli algoritmi di indicizzazione ma è stato innanzitutto un cambiamento dell’infrastruttura sulla quale l’indice si appoggiava. Alcuni di questi cambiamenti a volte impongono anche modifiche all’hardware usato, modifiche alla loro organizzazione o modifiche al network attraverso il quale i server sono collegati tra loro.

Oltre alle considerazioni su quanto possono influire sul ranking le fasi precedenti ad esso, va ricordato che la fase stessa di ranking è in realtà suddivisa in sotto-fasi, ognuna delle quali si occupa di attività ben specifiche:

  • Acquisizione della query
  • Comprensione della query
  • Matching (1): estrazione delle risorse dall’archivio
  • Filtraggio delle risorse
  • Matching (2): Ordinamento delle risorse

Pipeline del ranking

In questa lista mi sono fermato al primo livello gerarchico di questa suddivisione. In realtà si potrebbe andare ancor più in profondità, per esempio discutendo la sotto-fase di comprensione della query e suddividendola ulteriormente in altre attività, come quella della revisione/espansione che la query subisce prima che il motore inizi a farne un matching con le risorse in archivio.

Tutta ‘sta pappardella serve solo a mostrare che non esiste “un” algoritmo di ranking ma, invece, un complesso insieme di algoritmi che contribuiscono al risultato finale in diversi modi. Il punto è: quali di queste attività sono state oggetto delle modifiche a cui Google ha dato il nome “Hummingbird”?

In piena carenza di informazioni, non è nemmeno possibile avanzare ipotesi fondate sulla reale natura di Hummingbird: potrebbe aver richiesto una revisione completa dell’infrastruttura usata dall’indice e dagli algoritmi di ranking di Google oppure potrebbe trattarsi di un miglioramento di una specifica fase o sotto-fase della pipeline. Più avanti fornirò le ipotesi migliori.

In altre parole, non sappiamo quasi nulla su che cosa è e su come funziona. Questo non sarebbe un problema in altri settori, ma diventa un problema quando si è consapevoli di quello che succede tra i SEO quando un’informazione ritenuta importante non è purtroppo disponibile.

Il fenomeno sociale

La reazione SEO agli annunci dei nuovi update

Non è raro osservare SEO che si sentono spinti ad elucubrare le fantasie più colorite quando sono costretti a reagire all’assenza di informazioni su un argomento giudicato importante. Il fenomeno è particolarmente accentuato tra quei SEO blogger che devono necessariamente produrre articoli in contesti in cui la qualità del prodotto finale non è un parametro preso in grande considerazione.

Lo scenario regala tinte di ignoranza ancor più devastanti quando la necessità di scrivere qualsiasi roba pur di produrre un articolo si estende anche ai “giornalisti” del web, magari associati a testate altisonanti, pratici della parola digitata ma solitamente estranei ai temi sui quali hanno incautamente accettato di erogare caratteri.

Ma se ai giornalisti inesperti può essere ascritta solo la “colpa” di essersi imbarcati in un’impresa solitaria, fuori dalla portata delle proprie conoscenze, a quei SEO che hanno dato vita a confuse vacuità in formato ASCII non può che essere attribuita una responsabilità maggiore del danno prodotto all’informazione online, peraltro circoscritta ad un settore del quale dovrebbero mostrare una piena padronanza e che invece trattano come una discarica di pensieri fallati.

All’annuncio ufficiale di Hummingbird, in condizioni di assoluta assenza di informazioni, si sono sprecati fiumi di inchiostro digitale su interpretazioni personali e ipotesi fondate sul nulla, aumentando la confusione e l’incertezza più di quanto le scarne affermazioni di Google non facessero già. La qualità dei contenuti SEO sul web è mediamente bassa, ma la summa della mediocrità si osserva in tutta la propria vergogna proprio a seguito di questi annunci di update di Google, che vengono seguiti dopo pochi minuti da caterve di articoli che sembrano sapere tutto, anche quando di informazioni non ce ne sono.

Perché mai ad ogni nuovo annuncio importante emerge nel settore SEO questo irrefrenabile impulso a sottoporsi a travagli testuali che conducono solo a parti intestinali di oblunga materia fecale?

Forse una risposta sta nel fenomeno della compravendita di sicurezza psicologica.

Personalmente non ho mai ritenuto che questi discutibili post rappresentino il prodotto che l’autore intende proporre ai propri lettori. In un contesto molto markettaro, a volte intriso di attività di personal branding, il prodotto da promuovere è in realtà l’autore stesso. Il post è solo uno strumento per rinforzare il valore dell’autore agli occhi dei potenziali acquirenti.

Questo, beninteso, vale anche per me in questo momento e per voi nel momento in cui leggerete questa frase.

Tale interpretazione non dovrebbe suscitare più stupore di tanto, perché la SEO ha sempre sguazzato felice in un contesto pesantemente markettaro, la cui fauna è ricca di guri e paguri e la cui flora ha sempre regalato miti e fantasie pendenti dalle generose fronde dell’albero della colla sniffabile.

Ciò che molti lettori desiderano ottenere, magari, non è tanto l’incremento delle proprie conoscenze quanto l’individuazione di una o più figure autorevoli a cui prestare attenzione, in aggiunta a saltuarie conferme di aver scelto per bene tali guide. Insomma, si cerca sicurezza. Non ci si focalizza tanto sul “cosa” quanto sul “chi”, una tendenza che ho sempre considerato deleteria perché l’ho vista sempre andare in coppia con un pericoloso outsourcing delle proprie capacità cognitive.

Secondo questa interpretazione, la correttezza di quanto viene esposto in un articolo perde di rilevanza, non è più una variabile dell’equazione, perché il fenomeno che regola l’attribuzione di qualità dipende più dalla percezione dell’autorevolezza di un soggetto piuttosto che da un effettivo controllo della validità dei contenuti pubblicati.

Del resto, come potrebbe essere altrimenti? Da un lato sono presenti esperti che hanno accuratamente selezionato la propria platea in modo da focalizzarsi su soggetti meno in grado di mettere in discussione le affermazioni di una percepita autorità. Dall’altro i lettori si trovano privi di quelle conoscenze che permetterebbero loro di stimare la correttezza di un’affermazione e quindi decidono di focalizzarsi sulle personalità di rilievo, partendo dal presupposto che è meno probabile che una persona apparentemente autorevole possa sbagliare nelle proprie affermazioni rispetto ad un pinco pallino che nessuno si fila. Non è un ragionamento del tutto fallato, anzi.

Ad essere cinici, bisogna dare atto che il fenomeno è win-win: il guru paguro incrementa la propria esposizione e rafforza la propria immagine di esperto, mentre Pino e Mariuccia leggono l’articolo e vengono tranquillizzati con un cocktail di fregnacce stordenti prima di tornare serenamente ad occuparsi di link bulding su Altervista. La transazione è avvenuta e la validità delle affermazioni espresse nell’articolo è irrilevante.

Anche nel caso di Hummingbird sono state osservate diverse affermazioni assurde. Ve ne riporto alcune.

Che cosa si inventa la gente pur di scrivere roba

Ho letto più di un articolo nel quale si asseriva che Hummingbird fosse correlato alle domande a voce fatte agli smartphone e alla capacità di Google di mantenere il soggetto della ricerca tra sessioni diverse. Questa capacità prescine da Hummingbird ed è stata presente in Google da diverso tempo prima dell’introduzione della nuova tecnologia.

Ma sapete perché questa errata associazione è nata? Semplice: durante lo stesso evento in cui è stato annunciato Hummingbird da Amit Singhal, un’altra persona ha fatto degli esempi di ricerca vocale da mobile (che al momento è l’unica a mantenere il soggetto tra query diverse). E quindi in qualche modo gli autori dei post hanno fatto 1+2=47 ed hanno stabilito che, forse per proprietà transitiva, gli argomenti discussi durante la stessa giornata dovevano essere ovviamente correlati tra loro.

E’ un po’ come guardare un telegiornale e dedurre che ciascuna notizia è strettamente legata alle altre semplicemente perché sono state lette in sequenza all’interno della stessa trasmissione.

La seconda voce che è nata e che persino Wikipedia afferma di Hummingbird, è che la nuova tecnologia avesse a che fare con l’espansione del Knowledge Graph. La ragione per la quale la voce è nata è che all’interno del post ufficiale di Google che celebrava i quindici anni dell’azienda, si elencavano alcune migliorie al Knowledge Graph e alla sua capacità di fornire informazioni agli utenti. Quindi doveva necessariamente a che fare con Hummingbird, secondo criteri di associazione del tutto incomprensibili visto che stavolta l’articolo di Google non accennava ad Hummingbird nemmeno di sbieco!

La terza voce di cui ho letto è contorta e delirante: siccome Hummingbird è stato creato per comprendere meglio il “significato” delle query lunghe, per esempio quelle che pongono domande a Google, qualcuno ha dedotto che Hummingbird fosse un algoritmo di analisi di pagine web e che attribuisse maggiore importanza alle pagine contenenti FAQ e glossari.

La quarta voce la creo io in questo momento asserendo che Hummingbird abbia a che fare con l’incremento di produzione di ‘nduja in Calabria nel 2013. I due eventi sono palesemente correlati perché li ho appena citati all’interno della stessa frase. Non voglio far passare questo paragrafo per una battuta, perché l’associazione che ho fatto è palesemente idiota ma segue esattamente il modello standard con cui altre informazioni SEO vengono create e diffuse sul web, gli esempi che ho citato sopra sono una piccola testimonianza. Questa consapevolezza dovrebbe quantomeno spaventarvi e darvi un’idea di quanto stiamo messi male.

Altri articoli su Hummingbird che ho letto, invece, seguono il modello del minestrone di informazioni. Contengono la parola “Hummingbird” nel titolo ma poi nel testo scrivono di tutt’altro. Panda, Penguin, penalizzazioni, authorship, knowledge graph, nani e ballerine, tutto fa brodo ed è possibile giustificare la presenza della parola “Hummingbird” semplicemente definendolo come un framework dal quale qualsiasi altra attività di Google può trarre beneficio.

Altri articoli sfruttano l’approccio terroristico e associano Hummingbird a disastri e sfaceli proponendo soluzioni per sopravvivere alla morte imminente. Tutto ciò per un update di cui nessuno si è reso conto se non all’annuncio ufficiale, avvenuto dopo mesi di funzionamento.

Altri articoli non possiedono nemmeno le basi dell’ABC di Google e arrivano ad asserire robe tipo “Hummingbird è il successore di Google Caffeine” (il primo è un algoritmo di analisi delle query, il secondo è stato un cambio dell’infrastruttura necessario a velocizzare l’indicizzazione delle risorse web).

In altre parole Hummingbird è tutto e niente e la definizione cambia a seconda di chi è l’autore dell’affermazione, quanta umidità c’è nell’aria ed il terzo estratto sulla ruota di Napoli. Google non ha fornito informazioni in più, quindi non ci resta che fare come tutti: cedere alle lusinghe dell’affermazione facile e tirare a indovinare, magari facendo attenzione a supportare le affermazioni con un po’ di conoscenza del funzionamento del motore.

L’ipotesi più plausibile

Da fonti ufficiali sappiamo che Hummingbird ha l’obiettivo di “comprendere” meglio le query degli utenti. E’ quindi certo che uno dei campi di azione dell’update riguarda la fase di analisi delle query. In particolare è stato affermato dai portavoce di Google che Hummingbird pone maggiore attenzione a ciascuna parola della query, cercando di far emergere le relazioni con le altre parole.

Non c’è modo di sapere se questo tipo di analisi sfrutta le entità del knowledge graph o meno.

Non c’è modo di sapere se l’analisi si fonda su dati aggiuntivi che è stato necessario creare, per esempio se è stato necessario rivalutare il contenuto dei documenti sul web secondo nuovi criteri.

Tuttavia…

Sappiamo che Danny Sullivan ha ricevuto dai portavoce di Google alcuni esempi sul tipo di query che Hummingbird è in grado di comprendere meglio. Questi esempi sono stati pubblicati sulla sua pagina di FAQ su Hummingbird di Search Engine Land. Riporto l’estratto che mi interessa evidenziare:

“What’s the closest place to buy the iPhone 5s to my home?” A traditional search engine might focus on finding matches for words — finding a page that says “buy” and “iPhone 5s,” for example.
Hummingbird should better focus on the meaning behind the words. It may better understand the actual location of your home, if you’ve shared that with Google. It might understand that “place” means you want a brick-and-mortar store.

Adesso comparate il precedente paragrafo con il seguente:

For example, the user may enter the search query “What is the best place to find and eat Chicago deep dish style pizza?” In determining whether the term “restaurant” is a synonym for the query term “place”, a synonym engine may evaluate the query term in the context of adjacent terms, such as “best” or “to,” as well as non-adjacent terms, such as “Chicago” and “pizza.” Such an evaluation may result in the decision that, in the context of the non-adjacent term “pizza,” the term “restaurant” is a synonym of the query term “place.”

Questo secondo paragrafo è un estratto di questo brevetto, dissezionato da Bill Slawski in questo suo articolo nel quale si ipotizza che sia correlato ad Hummingbird.

Per quanto non vi sia la certezza che il brevetto corrisponda a tutte le attività svolte da Hummingbird, non si può negare che l’ambito di applicazione è esattamente lo stesso (interpretazione della query) e che il match tra l’esempio fatto a Danny Sullivan da Google e quello indicato nel brevetto sono del tutto simili, facendo l’esplicito riferimento al modo in cui è possibile estendere la parola “place” e comprendere che va considerata sinonimo di un termine più specifico.

Il brevetto, peraltro, offre un dettaglio ben maggiore proprio su questo esempio dell’espansione del termine “place”, quindi non si tratta di una pura coincidenza ma davvero uno degli obiettivi principali che l’algoritmo discusso nel brevetto si pone.

Non possiamo concludere che Hummingbird si componga esclusivamente dell’algoritmo illustrato nel brevetto, ma è possibile che tale nuova modalità di ricerca di sinonimi rappresenti una sua parte principale.

Imparare a dire “Non lo so”, imparare ad accettare un “Non si sa”

Questo micro-paragrafo lo lascio volutamente corto perché il suo senso sta già nell’intestazione. Nessuno è onniscente e la SEO è spesso costellata di informazioni mancanti: non dovremmo mai vergognarci di dare visibilità ai limiti della nostra conoscenza perché le decisioni vanno prese anche tenuto conto di quanto non sappiamo, altrimenti c’è il rischio di spendere tempo e denaro in attività legate a supposizioni prive di fondamento.

Conclusioni

Hummingbird ha palesemente l’obiettivo di fornire agli utenti documenti correlati a quanto l’utente ha cercato prescindendo dalla presenza nei documenti delle parole della query. Può essere considerato un modo di espandere la query, aggiungendo termini più specifici laddove l’utente avesse usato solo termini più generici o più ambigui. L’ambiguità viene risolta osservando il contesto e le altre parole della query e associando le parole più ambigue con parole più specifiche.

Non si può escludere che ci sia molto di più “sotto il cofano” e che per raggiungere questo obiettivo Google non sia stato costretto a mettere mani all’indicizzazione o ad altre fasi critiche della pipeline.

Per il momento ci portiamo a casa la consapevolezza che invece di tutte le boiate che si leggono in giro (comprese le eventuali mie) rimane alta la probabilità che si possa trattare davvero di quello che Google ha sempre affermato, cioè di un “semplice” modo per togliere ambiguità alle query.

P.S.
Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.

7 Responses to Tutto quello che (non) sappiamo su Google Hummingbird

  1. stefanotorre scrive il 29 July 2014 at 12:19

    sei veramente interessante e hai uno stile di scrittura che mi piace molto … il carattere però è difficile da leggere … ti prego cambialo :)

    • LowLevel scrive il 29 July 2014 at 14:02

      @stefanotorre: grazie per il feedback! Inizio a chiedere dei suggerimenti a chi di design ne capisce più di me e vediamo un po’ che ne esce fuori. :)

  2. Alessandro Binello scrive il 29 July 2014 at 18:28

    Bravo, sia per la chiarezza, sia per la franchezza.
    Se i SEO dedicassero tutto il tempo che dedicano alle congetture fantasiose a creare siti come si deve, non si preoccuperebbero poi così tanto per gli aggiornamenti…
    Detto questo, vado a fare un po’ di link building su Altervista 😀

  3. Fausto scrive il 29 July 2014 at 21:30

    Wow! Ho apeena cercato ‘hummingbird nduja’ e questo articolo è primo! Allora l’occorrenza funziona! 😉

  4. Pingback: Il Minimo Da Sapere Per Migliorare La Velocità Del Tuo Sito

  5. marcobolasco scrive il 31 July 2014 at 19:04

    Sai quale è il bello? Che ho riconosciuto almeno 2-3 testate SEO italiane che ne hanno (s)parlato nelle modalità da te descritte. Altro bell’articolo Enrico, che decisamente ci voleva prima del sedicesimo compleanno di Google… 😉

  6. Dario scrive il 28 August 2014 at 21:12

    Ottimo articolo, chiaro e con uno stile di scrittura molto personale. Compimenti!

Lascia un commento

More in Just SEO
Trarre lezioni SEO dal gigantesco bug di Google Plus

Siccome non uso questo blog per affrontare temi che ritengo meno interessanti, non ho scritto un articolo sul gigantesco bug...

Close