“Googleù” e l’errore di battitura che confonde Google

Trovo affascinante notare come i motori di ricerca si adattino ai cambiamenti.

Con l’obiettivo di essere uno specchio quanto più obiettivo possibile del mondo circostante, sono progettati per reagire a nuovi fenomeni e ad imparare automaticamente da essi, senza che qualche omino sia costretto a riscrivere nuove regole per gestire situazioni e scenari non esistenti né prevedibili in passato.

Da quando è nato Google+, un brand poco amichevole nei confronti degli algoritmi usati dai motori di ricerca per l’analisi della sintassi, mi sono chiesto come avrebbe reagito il motore di ricerca Google di fronte a quel carattere “+” che nel tempo sarà destinato a diffondersi sempre più.

Inizio con una breve trattazione dell’argomento dei caratteri speciali e dei sistemi adattivi, per poi farvi notare un fenomeno molto raro da osservare e legato alla nascita inaspettata di una nuova parola.

I caratteri non alfanumerici

Il carattere “+”, assieme a diversi altri, è gestito in maniera particolare dai motori di ricerca.

Innanzitutto viene usato da diversi motori come un operatore speciale che, anteposto ad una parola o frase, impone al motore di ricerca di restringere i risultati alle risorse in cui la parola o frase appare in forma esplicita esattamente per come è stata digitata dall’utente.

L’uso del “+” è utile in tutti quei casi in cui il motore di ricerca preferisce “espandere” una parola scritta dall’utente e dare maggior peso ad essa una sua variante (sinonimo, cambio di genere, termine correlato, ecc.). Con la sintassi “+parola” si è invece certi che la parola sia associata alle risorse restituite dalla ricerca esattamente nella forma digitata.

Al di là dei casi in cui il carattere “+” viene usato come operatore speciale, tuttavia, la sua gestione da parte dei motori si complica.

Nella stragrande maggioranza dei casi i caratteri di punteggiatura, o più genericamente i simboli non alfanumerici, vengono semplicemente rimossi dalla query dell’utente prima che il motore effettui la ricerca…

…tuttavia, la loro gestione da parte dei motori cambia nel momento in cui la loro presenza modifica il senso della query o ne cambia il contesto.

L’esempio tipico che si fa in questi casi è la differenza di risultati che si osserva comparando la ricerca [c] con la ricerca [c++] (che è il nome di un linguaggio di programmazione).

Nonostante nel secondo caso siano presenti due caratteri “+”, la loro presenza cambia completamente l’oggetto della ricerca e pertanto i motori non ignorano più tali caratteri.

Un altro esempio tipico è il simbolo del dollaro “$”, che quando è associato a numeri cambia del tutto il senso della query nel suo complesso, avvicinandola ad un contesto monetario. Anche in tal caso il motore di ricerca può decidere di non ignorare il simbolo.

La domanda più interessante però è: “Come fanno i motori di ricerca a gestire queste eccezioni? C’è un omino che le individua e le aggiunge a mano ad un elenco di eccezioni?”.

Sistema adattivo o eccezioni esplicite

Come già detto, uno degli obiettivi di un buon motore di ricerca è quello di evitare di creare regole per la gestione di specifiche eccezioni. Il risultato ottimale sarebbe quello di ottenere un sistema in grado di comprendere da sé quando è il caso di ignorare un carattere speciale e quando invece la sua presenza modifica il senso della ricerca così tanto da rendere opportuna, in alcuni specifici contesti, una gestione speciale del simbolo.

Purtroppo non sempre questo risultato è conseguibile. I motori di ricerca che possiedono un corpus (l’archivio delle risorse indicizzate) molto grande possono sfruttare le analisi statistiche dei contenuti dei documenti e delle query degli utenti per rendersi conto quando la presenza o assenza di un simbolo associato ad un’espressione ne cambia il significato o il contesto.

Al contrario, i motori di ricerca che possiedono corpus piccoli o molto specializzati non sempre trovano nelle analisi statistiche del proprio archivio una soluzione all’obiettivo di ottenere un sistema adattivo. In tali casi, ripiegano su liste di eccezioni e casi speciali, redatte a mano da personale umano.

Questo scenario non si applica solo alla gestione dei caratteri speciali ma anche alla gestione di intere parole, come nel caso delle stopword. Non è un caso che tutti i motori di ricerca progettati per gestire piccoli corpus (compreso il Google Search Appliance per la ricerca di intranet o siti web) prevedano la possibilità per l’operatore di specificare un elenco di parole da ignorare.

A prima vista sembrerebbe che la presenza di un grande e non specialistico archivio di contenuti e di query sia la soluzione definitiva alle necessità di adattamento del motore di ricerca, ma le cose non sono così semplici quando un nuovo termine prende vita.

La nascita di una parola non prevista: “googleù”

Prima della nascita di Google+, una ricerca per [google+] su Google restituiva esattamente gli stessi risultati della ricerca [google].

La ragione, come spiegato, è che l’aggiunta del carattere non modificava il senso della ricerca, in quanto in quel momento non c’era evidenza statistica nel corpus o tra le query degli utenti che la presenza di quel simbolo fosse volontaria e destinata ad identificare un oggetto diverso dal semplice “google”.

Le cose sono ovviamente cambiate nel momento in cui Google+ è nato. Nel corso dei giorni successivi al suo lancio sono aumentate sia le risorse sul web che facevano riferimento al suo nome sia le ricerche degli utenti che contenevano tale nuova parola.

Le evidenze statistiche hanno prodotto il risultato voluto: il motore di ricerca si è reso conto della nascita di un termine del tutto nuovo, da gestire come parola a sé, e i risultati della ricerca [google+] sono di conseguenza cambiati nelle settimane successive al suo lancio.

Tasto u accentataIn Italia è però successa una bellissima cosa. Beh, bellissima dal punto di vista di chi ha interesse a smontare il giocattolo Google per capire come funziona: la vicinanza dei tre tasti invio, “+” e “ù” sulle tastiere italiane ha indotto la nascita di tanti errori di battitura.

Alcune delle persone che desiderano cercare [google+] si ritrovano a inviare involontariamente a Google la ricerca [googleù] ed il fenomeno è quantitativamente così ampio che Google è incerto su come gestire quella che ai propri occhi appare come una nuova e sconosciuta parola.

Gestione della parola googleù e prime analisi

Ricerche correlate a Google+Nel momento in cui scrivo, 6 agosto 2011, cercare su Google [google+] produce correttamente una SERP incentrata sul nuovo social network di Google ma, cosa più importante, riporta in fondo il classico riquadro delle ricerche correlate, che mostra in tutto il suo splendore la ricerca [googleù], come evidenziato dallo screenshot incluso.

Cercando invece volontariamente [googleù], Google mostra la classica SERP che vien fuori nei casi di incertezza da parte del motore di ricerca: in cima appare il messaggio “Forse cercavi: google” con un paio di risultati per tale query ed il resto dei risultati è invece dedicato a quello che effettivamente ha cercato l’utente, ovvero “googleù”.

SERP della ricerca googleù

La ricerca "ibrida" con i due gruppi di risultati

Analisi del fenomeno lato utente:

  1. l’utente ha l’obiettivo di cercare [google+] ma cerca involontariamente [googleù]
  2. Google gli presenta una SERP che propone un “forse cercavi google” (assieme a due risultati di anteprima) e a seguire i risultati per la ricerca [googleù]
  3. l’utente è insoddisfatto perché non gli è stato proposto nulla che soddisfacesse ciò a cui era interessato, Google+, e quindi è costretto ad effettuare una seconda ricerca, correggendo il proprio errore di battitura e inviando finalmente la query corretta: [google+]

Analisi del fenomeno lato motore di ricerca:

  • Google osserva la nascita di tante ricerche [googleù] ma non una proporzionale crescita delle risorse sul web che contengono tale nuova parola
  • tante ricerche [googleù] vengono sicuramente aggiustate dagli utenti nella ricerca [google+] e questo induce Google a considerare [googleù] una ricerca correlata a [google+], indicandolo esplicitamente all’utente che cerca [google+]
  • il motore non solo non ha compreso pienamente che [googleù] è un mistyping (mostra ancora una ricerca con i risultati di entrambe le query) ma non è nemmeno in grado di associare il mistyping alla parola corretta

Apparentemente esistono dunque due sistemi che in questo specifico caso non stanno (ancora) scambiando informazioni tra loro.

Il primo sistema è quello che propone le ricerche correlate a fondo SERP e che apparentemente si nutre anche degli affinamenti delle ricerche. Il risultato è che coloro che cercano il termine corretto trovano come ricerca correlata il termine con l’errore di battitura.

Il secondo sistema è quello della gestione degli errori di battitura: Google è attualmente incerto che [googleù] sia effettivamente un errore di battitura e propone quindi una SERP con due insiemi di risultati: quello che lui congettura sia la correzione giusta, [google], e i risultati di quanto l’utente ha effettivamente digitato, [googleù].

Per completare il quadro, è necessaria però un’ultima ed essenziale informazione, ovvero che cosa accadeva cercando [googleù] prima che nascesse Google+. Prima che nascesse Google+, la ricerca [googleù] veniva automaticamente corretta da Google nella ricerca [google], senza incertezze. Le incertezze sono nate con la nascita della parola “Google+” e solo su Google.it.

Conclusione dell’analisi

Seguendo un filo cronologico è facile intuire quanto stia succedendo: il sistema di correzione delle query si basa sia su analisi testuali del corpus sia su analisi delle query degli utenti.

Nei casi in cui il motore si trova di fronte ad un fenomeno minimo di errori di battitura nelle query, propone all’utente una SERP contenente esclusivamente i risultati per il termine corretto. E’ quanto è successo per tanto tempo cercando [googleù].

Nel momento in cui il motore osserva una crescita consistente di errori di battitura nelle query, non associata ad un proporzionale incremento degli stessi errori nel corpus, passa da una condizione di “quasi certezza” ad una condizione di “dubbio”: “googleù” potrebbe essere diventato un termine vero e proprio, nonostante dalle analisi del corpus non vi siano indizi di ciò.

In conseguenza di tale nuovo dubbio, il motore cambia idea e inizia a proporre una SERP ibrida, che contiene principalmente i risultati per l’errore di battitura ma anche un paio di risultati per il termine che fino a quel momento era considerato la giusta correzione all’errore dell’utente.

In questo contesto, il motore osserva che una parte degli utenti che digitano [googleù] cliccano sul suggerimento [google], magari perché intendevano scrivere effettivamente la parola “google”, e che un’altra parte degli utenti non clicca sul suggerimento [google] ma modifica la query in [google+].

Questa seconda classe di utenti è aumentata di numero e percentualmente in maniera significativa, visto che fino ad alcune settimane fa Google+ non era ancora conosciuto e quasi nessuno cercava [google+].

E’ giusto chiedersi quanto essa sia aumentata e l’impressione è che sia aumentata abbastanza da indurre il motore a proporre [googleù] come ricerca vera e propria, correlata alla ricerca [google+].

La situazione è dunque questa: Google in questo momento non ha modo di sfruttare uno strumento principe per la comprensione e gestione degli errori di battitura: il click sul suggerimento stesso. Fino a quando chi intende cercare Google+ si ritroverà proposto il suggerimento errato, nessuno cliccherà sul suggerimento e Google non avrà modo di imparare.

Che lezioni SEO utili se ne ricavano?

La lezione principe che si trae dall’analisi è che una modifica consistente nelle abitudini di ricerca degli utenti può cambiare le certezze di Google sull'(in)esistenza di un termine anche nel caso in cui non vi sia una riprova di ciò analizzando il corpus di documenti.

La seconda lezione che se ne ricava ma che i SEO già conoscono, è che nel momento in cui un utente non trova ciò che intendeva (cercando erroneamente [googleù]) e corregge la query, crea nella testa di Google un legame tra le due ricerche. Almeno fino a quando una delle due non viene classificata come errore di battitura, che non appaiono mai tra le ricerche correlate.

Ma molte altre lezioni potrebbero essere imparate spingendosi un po’ oltre…

Come giocare con la mente di Google

Forse un giorno scriverò un articolo intitolato “How to fuck up Google’s mind with statistical attacks” (prendere termini competitivi e trattarli come se fossero brand o acronimi è divertente) ma per il momento mi limiterò a proporre una semplice tecnica per approfittare della confusione del motore e trarre nuove informazioni utili per il SEO.

In presenza di un nuovo fenomeno di ricerca che apparentemente dichiara l’esistenza di una nuova parola (googleù) e nella condizione in cui Google ha le idee confuse tanto da proporre una query “ibrida”, una semplice azione SEO potrebbe trasformare una situazione di dubbio in una certezza: per fargli credere che “googleù” sia una parola vera e propria sarebbe sufficiente comprovare la sua esistenza pubblicando sul web un po’ di documenti che la usano.

Come questo che state leggendo.

Se la teoria fosse valida, i risultati per la ricerca [googleù] dovrebbero presentare semplicemente i documenti correlati al nuovo termine e il suggerimento di una ricerca alternativa dovrebbe quantomeno ridursi ad una semplice proposta in cima alla pagina, come avviene per diverse query.

Le lezioni SEO acquisibili sarebbero molteplici:

  • si avrebbe conferma del sistema di “reciproca conferma” tra contenuti del corpus e ricerche degli utenti
  • si potrebbe approfondire la comprensione del sistema di gestione degli errori di battitura, osservando eventuali variazioni nella SERP della ricerca [googleù]
  • nel caso in cui Google comprendesse comunque che “googleù” è un termine inesistente, si cercherebbe di comprendere quali altri segnali potrebbe aver preso in considerazione oltre a l’analisi di query e testi del corpus

Espongo tale tipologia di attacco come scenario ipotetico, senza la pretesa che qualcuno decida di concretizzare l’idea in un test vero e proprio.

16 Responses to “Googleù” e l’errore di battitura che confonde Google

  1. max scrive il 6 August 2011 at 14:49

    …e tu ne hai giustamente approfittato per comparire al primo posto nelle serp per questo termine.. ^^^…bravo. cosi’ si fa, se si conosce il mezzo internet e si hanno velletà seo. sai che? lo scrivo anch’io un post ^_^

    • LowLevel scrive il 6 August 2011 at 15:02

      Ciao max.

      > per comparire al primo posto nelle serp per questo termine

      No, attenzione, l’obiettivo è diverso e lo citavo alla fine dell’articolo. L’obiettivo è quello creare nel corpus di Google più documenti (non pochi) che contengono questa nuova parola, approfittando del fatto che tanta gente la cerca, seppur involontariamente.

      E’ uno scopo che riguarda i contenuti dell’archivio di Google e l’arricchimento del suo dizionario. Nelle mie previsioni questo arricchimento dovrebbe comportare la scomparsa della SERP “ibrida” e la sua sostituzione con una SERP che contiene solo risultati dedicati al termine “googleù”.

      L’ordinamento delle risorse elencate poi può essere uno qualsiasi.

      > lo scrivo anch’io un post ^_^

      Ottimo, creare un maggior numero di documenti che contengono (in modo naturale) tale termine è proprio ciò di cui parlavo. :)

  2. max scrive il 6 August 2011 at 15:27

    Capisco. Cmnq ti ho regalato direttamente un paio di link che riassumere il tuo articolo mi sembrava un impresa titanica ^_^ visti gli spettacolari dettagli in cui scende. Mi dispiace soltanto di averti rubato il primo posto su Google. Respect.

    http://blog.libero.it/VIDEOFILMVIDEO/10484602.html

    • LowLevel scrive il 6 August 2011 at 15:33

      @max: grazie del contributo alla causa! L’ordine dei risultati non è importante, il blog non ha obiettivi di posizionamento. Ciao! :)

  3. max scrive il 6 August 2011 at 15:37

    oooohhh caro, io no! Quando vedo un mio articolo primo sui motori di ricerca godo come un caimano…ma si tratta soltanto di pura deformazione professionale !!!

  4. Filippo scrive il 7 August 2011 at 13:07

    Sempre molto interessanti le tue analisi seo :)

  5. Carlo scrive il 8 August 2011 at 00:27

    Sono tanto affascinanti quanto stucchevoli due conferme che deduco da questo articolo e dai commenti:
    1. I SEO pensano più ad arrivare primi che a vendere i prodotti dei clienti (il secondo non è conseguenza del primo)
    2. I dubbi espressi da te con i se e le pure teorie dell’attacco all’archivio di Google e le sue statistiche dimostrano ancora una volta che i SEO fanno deduzioni ed improvvisano sempre con i soldi dei clienti. Alla prossima :)

    • LowLevel scrive il 8 August 2011 at 08:32

      Ciao Carlo,

      grazie innanzitutto per il tuo contributo.

      Non sono mai stato molto interessato a quelle discussioni che, dedicate ad un oggetto, si ritrovano dirottate su opinioni su soggetti, siano essi persone o classi di persone. Comprendo però che si può trarre piacere ad esprimersi per tentare di dimostrare ad altri la correttezza di proprie convinzioni: rispetto la natura di queste esigenze ma non ne percepisco gli effetti costruttivi sul dialogo e quindi è raro che io le alimenti con le mie opinioni.

      Proseguo invece sui binari tracciati dall’articolo e ti rispondo su un altro punto delle tue opinioni che ritengo importante chiarire, perché c’è il rischio che si attribuisca una valenza negativa ad un’attività che in tutti i contesti sani ed evoluti è sempre considerata di grande valore: la sperimentazione, il reverse engineering e, più genericamente, le attività di ricerca e sviluppo.

      In contesti (come il SEO) dove esperienza e cultura si raggiungono anche partendo da teorie e pianificando un percorso per la loro analisi ed eventuale confutazione, è assolutamente normale investire tempo in tali attività ed è altrettanto normale che esse vengano finanziate con parte del fatturato dell’azienda, ovvero con il denaro dei clienti.

      Ti dirò di più, nei suddetti contesti l’investimento di tempo (e quindi denaro) in attività di ricerca viene sempre presentato ai potenziali clienti come un elemento di grande valore perché contribuisce alla crescita di quella cultura e di quelle esperienze che stanno alla base delle strategie (tecniche e di marketing) che vengono suggerite ai clienti stessi.

      Lo stesso discorso si applica al denaro (dell’azienda e quindi dei suoi clienti) che viene investito nei percorsi di formazione previsti per il personale, che comprendono attività per aggiornarsi, per sperimentare, per fare pratica e per acquisire un approccio analitico alla soluzione dei problemi. In settori dove le regole cambiano quotidianamente, l’insieme di queste pratiche è essenziale per restare al passo, per crescere e per mantenere alta la qualità del proprio lavoro.

      Si chiama “investimento” perché non è tempo perso ma produce nel tempo un valore che rimane tra gli asset aziendali. Tutto ciò, ripeto, in contesti sani ed evoluti.

      L’articolo che hai letto apre una finestra sulla prima fase di un percorso di ricerca e, come puoi constatare, volutamente lì si ferma per dare spazio ad eventuali contributi altrui. Ti chiedo di non ignorare gli intenti divulgativi di questo post; l’articolo stesso ha una descrizione che inizia con “Cibo per la mente” e vedere strumentalizzati tali scopi divulgativi per tentare di dimostrare tesi su alcune persone è davvero demoralizzante.

      Rispetto dunque le tue opinioni sulla indefinibile categoria dei SEO ma il tentativo di attribuire una valenza negativa alla sperimentazione e al contesto delle ipotesi da provare o confutare, scusa tanto, ma non posso proprio fartelo passare… 😀

      Circa l’approccio legato all’improvvisazione, trovo positivo anch’esso: cogliere nuovi segnali e adattarsi ai contesti è essenziale. Se così non fosse, invece di ottenere consulenti di marketing abituati a far lavorare il proprio cervello e ad ideare strategie opportune per specifici scenari, rischieremmo di creare una classe di lavoratori che sarebbero buoni solo ad applicare meccanicamente qualche linea guida letta su un ebook gratuito.

      Scimmie che dovrebbero applicare regole senza “giocare con i soldi dei clienti”.

      Il mio parere è che tale condizione non porterebbe beneficio a nessuno, a cominciare dai clienti stessi.

      I tuoi pareri sulle attività di analisi, sperimentazione e R&D sono benvenuti. :)

  6. Carlo scrive il 8 August 2011 at 00:28

    Devo ammettere però che l’articolo è scritto bene e che le notazioni tecniche sono notevoli. Spero tu non sia un SEO 😉

  7. Andrea moro scrive il 8 August 2011 at 09:33

    Interessante articolo, anche se non condivido la parte introduttiva dove dici che il segno più viene utilizzato per “espandere la ricerca”.
    Questo é un comportamento adwords più che google motore, che per quel che vedo tratta il più spesso e volentieri come lo spazio.

    Anche nelle query che egli stesso propone ho notato che sono ritornati ad usarlo al posto del vecchio %20

    Vorrà dire probabilmente poco, visto che in casa loro comandano loro, ma nel sviluppare i miei tools il più mi é stato di gran lunga più comodo.

    • LowLevel scrive il 8 August 2011 at 10:23

      Ciao Andrea, solo una precisazione:

      > dove dici che il segno più viene utilizzato per “espandere la ricerca”.

      Non ho scritto questo ma il contrario: “Con la sintassi “+parola” si è invece certi che la parola sia associata alle risorse restituite dalla ricerca esattamente nella forma digitata.

      Indicavo che l’operatore può essere un buon antidoto nei casi in cui Google decida di espandere un termine: usando il “+” si forza il motore a includere solo le risorse a cui il termine viene associato in forma esatta.

      Rileggendo il periodo, mi rendo conto che è poco chiaro, in effetti. Vedrò di aggiustarlo, grazie della segnalazione. :)

  8. Andrea Moro scrive il 8 August 2011 at 17:53

    Fa molto piu’ senso cosi’ :)

  9. Carlo scrive il 8 August 2011 at 23:04

    Ciao Andrea hai fatto una filippica :) su un messaggio che proprio non volevo far passare e cioè che la ricerca e la sperimentazione sono dannose o superflue. Tanto è confermato dal averti fatto i complimenti per le notazioni tecniche che l’articolo citava. Io mi riferivo solo al post di chi gioiva per averti superato nel motore di ricerca, trovandolo conformemente mediocre rispetto alla media dei tecnici SEO che vendono cose (ai clienti), senza avere la più pallida idea di cosa stanno facendo e questo anche quando sono bravissimi, perchè è incalcolabile il danno economico generale (anche per lo sfortunato cliente) provocato dal posizionare una pagina che dal punto di vista marketing non serviva posizionare. L’ultima mia riflessione poi esprimeva il disappunto per l’aggravio di conseguenze dovuto all’aggiungere a quanto sopra il fatto che i tecnici SEO poi vendono i loro servizi basati su congetture a clienti ignari del funzionamento che spendono e poi (salvo rarissime eccezioni) concludono che Internet non serve a nulla. Forse per questo nel mondo nascono i google, facebook, yahoo e tanti altri e i nostri cervelli vanno all’estero non credi?

    • LowLevel scrive il 9 August 2011 at 08:33

      Ciao Carlo,

      evidentemente ci sarà stato un equivoco, del quale mi scuso. I riferimenti espliciti a me e alle congetture che esprimevo nell’articolo mi hanno indotto a credere che le tue opinioni si fondassero anche sull’osservazione di tali elementi, oltre che sui commenti che ne sono seguiti.

      Condivido le tue considerazioni sui danni che possono essere causati quando una qualsiasi attività rimane fine a sé stessa e non è funzionale ad obiettivi definiti con chiarezza.

      Non mi chiamo Andrea. 😀

      Un saluto.

  10. Filippo scrive il 9 August 2011 at 13:04

    Oggi vedo nei suggerimenti di ricerca:

    Ricerche correlate a google+
    google+uk
    google+earth
    googleù

    oltre a “googleù” propone ricerche con il “+” utilizzato come operatore. Sta facendo un po’ di confusione con il +

  11. carlo scrive il 10 August 2011 at 11:21

    :) ahaha non so perchè ma ne ero convinto che ti chiamassi Andrea. Resta e non può essere scalfita da qualsivoglia commento l’enorme capacità di analisi tecnica espressa nella relazione pubblicata.
    Complimenti.

Lascia un commento

More in Just SEO
Quiz sull’indicizzazione e cose imparate a pappagallo

Craaak! Polly vuole un biscotto! Un argomento ricorrente nei discorsi tra colleghi e amici SEO è legato a quanta confusione...

Close