Quando Google spamma sé stesso: una malefatta passata inosservata

Ercole e l'idra

All’inizio pensavo di intitolare questo articolo “Quando Google spamma sé stesso: una torbida storia di potere e corruzione” ma sarebbe stato un po’ troppo romanzato e il titolo mi avrebbe stuzzicato la pericolosa idea di trasformare l’articolo in un racconto estivo ambientato in una New York del periodo proibizionista. Immaginavo già Larry Page con un fedora.

Alla fine ho ripiegato verso un titolo che va dritto al punto.

La prima cosa che dovete sapere è che l’immagine di Google che spamma sé stesso è tanto diffusa quanto impropria. È vero che alcune volte i responsabili del motore di ricerca sono arrivati a penalizzare siti web appartenenti all’azienda, ma sarebbe superficiale concludere di trovarsi di fronte ad un singolo soggetto con tendenze schizofreniche. Quindi vi spiegherò perché queste vicende avvengono.

La seconda cosa che dovete sapere è che un po’ di tempo fa ho beccato quello che considero il più atroce esempio di spam operato da un team di prodotto di Google ai danni di Google Search, un’attività di puro spam su larga scala, con l’obiettivo di riempire l’indice del motore di tanta roba di bassa qualità che non avrebbe meritato di essere indicizzata.

Questa aberrante e titanica malefatta è passata inosservata a tutti ed è stata purtroppo notata dal sottoscritto troppo tardi, quando ormai la tecnica di spam non aveva più senso visto che il servizio che tentava di promuovere sulle SERP non esisteva più. Se l’avessi beccata qualche anno fa sarebbe successo probabilmente un mezzo putiferio e mi mangio un po’ le mani per non essermene accorto prima.

La malefatta la racconto comunque, anche se in ritardo, perché è talmente grossa che è bene che tutti voi siate informati della cosa. Prendete i pop corn.

Uno, nessuno e centomila

Nel nostro piccolo mondo markettaro, abitato da esseri umani che hanno prevalentemente contatti con aziende di entità media o piccola, si fa fatica ad immedesimarsi nel funzionamento di una grande multinazionale.

La gente tende a considerare “Google” o qualsiasi altra azienda di pari grandezza come se si trattasse di un soggetto singolo. È anche un modo per “umanizzare” il motore di ricerca e renderlo più comprensibile, riportandolo forzatamente ad un contesto più familiare a noi esseri umani. È però anche un presupposto errato che può condurre ad errori nelle nostre valutazioni; me ne sono lamentato in passato ed è uno degli argomenti affrontati da Valerio Notarfrancesco in questo articolo.

In una qualsiasi multinazionale, i vari prodotti e servizi vengono gestiti da team dedicati, ciascuno dei quali si occupa di portare avanti, migliorare e promuovere il prodotto a cui è stato assegnato. Non è possibile fornire una descrizione dell’organigramma e delle relazioni tra team di prodotto diversi, perché la struttura cambia da azienda ad azienda. Quello che sappiamo è che in Google esiste un modello che è in parte a “compartimenti stagni” e di conseguenza, osservando le cose dall’alto, le azioni di un team non sono necessariamente coerenti con quanto viene fatto un altro team.

Alcuni dipendenti vengono misurati sulla base dei risultati che portano e quindi, detto in modo gratuitamente brutale, gli sbatte sega se fanno qualcosa che va a scapito di altri team o prodotti; l’importante è raggiungere gli obiettivi.

Se esistono controlli da parte di regie superiori, che dovrebbero avere il compito di definire degli standard etici aziendali e di farli rispettare, allora tali controlli a volte non hanno funzionato, perché in passato è successo che un team di prodotto, desideroso di acquisire visibilità sul motore di ricerca, abbia svolto attività che i responsabili del prodotto “Google Search” definiscono spam.

Agli occhi esterni sembra che in signor Google prima faccia una legge e poi non la rispetti, nella realtà io ho sempre spinto affinché si diffondesse questa consapevolezza che non esiste un solo Google ma è più corretto considerare la multinazionale come se fosse un agglomerato di tante piccole imprese, ognuna con una certa autonomia decisionale e con propri obiettivi e modalità operative.

La logica super-super-semplicistica di considerare Google un singolo soggetto guidato da una mente unica è la stessa che porta a fare mischioni pericolosi in altri ambiti legati al search marketing, per esempio quando ci si mette in testa che il motore di ricerca consti di un singolo o principale algoritmo, quando in realtà la macchina è estremamente complessa e gestita da molti algoritmi e software, ciascuno con obiettivi diversi.

Sempre la stessa logica claudicante porta la gente a immaginare che il team di Google Search e quello di Google Adwords siano in grado di influenzare, ciascuno, gli obiettivi ed i criteri dell’altro.

Poi magari si cresce e si capisce che la qualità del prodotto Google Search è abbastanza sacra (per ragioni sia ideologiche sia economiche) e che, se necessario, a subire penalizzazioni nei risultati di ricerca saranno anche siti che vengono gestiti da altri team dell’azienda.

Provo a farvi una lista delle vicende passate.

Cronache spammiane

La mia memoria fa affiorare tre episodi in cui un team di prodotto di Google si sia reso responsabile di attività di spam nei confronti del motore di ricerca. Però ricordo che ce ne sono state più di tre, quindi sto facendo un gioco con me stesso nel momento stesso in cui scrivo questa frase: prima vi accenno a quelli che ricordo io, poi vado a farmi un giro su Search Engine Land per vedere quanti me ne sono dimenticato.

I link acquistati per Google Chrome

L’episodio che ricordo meglio è quello relativo a Google Chrome, perché è probabilmente quello più recente. Il team di Google Chrome si rivolse ad un’agenzia esterna per promuovere il proprio browser e l’agenzia avviò una campagna di article marketing ottenendo articoli di dubbia qualità e a volte comprensivi di un bel link do-follow verso il sito di Google Chrome.

Il team di Google Search penalizzò il sito di Google Chrome, che per un po’ di tempo non venne fuori nei risultati di ricerca nemmeno cercando il nome del prodotto o query generiche come [browser].

Questa vicenda fu l’unica, tra le altre esposte, in cui Google si scusò ma precisò anche che in realtà loro non avevano richiesto all’agenzia la pubblicazione di articoli di cacca. Però, per coerenza, la penalizzazione venne inferta ugualmente perché la responsabilità delle pubblicazioni era comunque di Google.

I link acquistati da Google Japan

Non ricordo bene che tipo di prodotto era stato promosso, ma ricordo che il sito di Google Japan venne penalizzato dal Search Team perché i responsabili si erano resi rei di aver acquistato link.

La penalizzazione, in questo caso, era stata abbastanza blanda, forse anche solo “estetica”, nel senso che era stato abbassato il “Toolbar PageRank” ma forse non il PageRank reale.

Cloaking di Google Adwords

Qui la memoria vacilla ancora di più, ma ricordo distintamente che il team di Google Adwords adottò una tecnica di cloaking su delle pagine di Google.com per presentare a Googlebot contenuti testuali diversi rispetto a quelli presentati dagli utenti.

In questo caso la penalizzazione del team di Google Search fu consistente e quelle pagine perserò visibilità nei risultati di ricerca.

Quanta roba ho ricordato?

Beh, ho dato un’occhiata a Search Engine Land e ho constatato che non me la sono cavata poi tanto male. Non ricordavo un quarto episodio di spam, legato all’acquisizione dell’azienda Beat That Quote da parte di Google. In pratica Google acquisì un comparatore di servizi finanziari come mutui e assicurazioni e tale azienda aveva fatto spam in passato. Di conseguenza Google si ritrovò tra le mani un sito che il Search team fu costretto a penalizzare.

È strano che io non ricordi questa vicenda, perché avevo seguito con interesse l’acquisizione di quell’azienda e la conseguente nascita del minaccioso motore di ricerca verticale di Google per mutui e assicurazioni auto. Il giorno che ‘sta roba verrà estesa all’Italia, in cima alle SERP, prevedo smottamenti tellurici con l’epicentro individuato nei consigli di amministrazione di alcune aziende. Vabbè, chiusa parentesi.

La seconda cosa che non ricordavo è che il team di Google Adwords si è reso responsabile di spam via cloaking due volte e non solo una. Come dire, repetita iuvant.

Leggetevi questo dettagliato articolo di SEL per avere tutti i particolari che non ho riportato io.

Adesso che ho delineato i contorni di questa mitologica idra multitesta, ciascuna dotata di volontà propria, tocca spiegarvi quello che ho notato il 20 dicembre 2013.

La maxi-porcata passata inosservata: il contesto

Ad esclusione dei SEO abitanti in altri sistemi solari, qualunque SEO mediamente dotato dovrebbe sapere che indurre Google ad indicizzare una grande quantità di pagine contenenti generici risultati di ricerca è una pratica considerata spam da Google.

La più grande lotta di Google contro questa tipologia di risorse di bassa qualità è avvenuta alcuni anni fa, quando sulle SERP di Google imperversavano i cosiddetti spam engine. Uno spam engine è un sito che ospita un motore di ricerca per il web e che induce Google (o altri motori popolari) ad indicizzare una grande quantità di pagine contenenti SERP prodotte dallo spam engine.

L’esperienza di un utente era dunque pessima in quanto, dopo aver effettuato una ricerca su Google e dopo aver cliccato su un link che conduceva ad uno spam engine, l’utente si trovava nuovamente di fronte ad una pagina con un elencone di dieci link blu.

La famelicità di Googlebot e lo schema di linking interno usato dagli spam engine permetteva agli stessi di ingolfare l’indice di Google con quantità altissime di pagine spazzatura, che per giunta ottenevano visibilità molto facilmente.

Il sistema funzionava talmente bene che alcuni circuiti di affiliazione avevano creato e mettevano a disposizione dei webmaster degli script pronti per creare il proprio spam engine ed iniziare a riversare montagne di letame sulle SERP di Google, senza che fosse necessario possedere alcuna conoscenza tecnica di come si costruisce un motore di ricerca. Il percorso era dunque del tipo:

  1. Prendi lo script
  2. Installalo su un sito
  3. Osserva come Google indicizza tutte le tue pagine contenenti risultati di ricerche e link di affiliazione
  4. Conta il traffico da Google ed i soldi

Di questa estenuante e lunga battaglia tra Google e gli spam engine è rimasta, dopo la lenta disfatta di questi ultimi, una riga delle linee guida di Google per webmaster che recita:

“Use robots.txt to prevent crawling of search results pages or other auto-generated pages that don’t add much value for users coming from search engines.”

Per tanti anni, Google si è leccato le ferite derivanti dall’efferato conflitto e immagino che voi darete per scontato che un’azienda che ha affrontato tale sfida deve aver maturato una cultura profondamente avversa a tali elementi tossici del web, giusto?

È un po’ come quando assaggi per la prima volta il sidro di mele, te ne scoli qualche litro perché va giù che pare acqua, prendi la più devastante ubriacatura della tua vita e dopo aver passato uno squallido hangover di due giorni, durante il quale il tuo organismo cercava di vomitare quel poco di coscienza di te che ti era rimasta e tu eri fermamente convinto che saresti schiattato da un momento all’altro, da quel momento in poi e per il resto della tua vita il tuo cervello ti invia messaggi di morte imminente non appena senti solo l’odore di quella roba (questa metafora è autobiografica).

Ecco, questo è quello che sarebbe dovuto succedere a Google: un rifiuto endemico per qualsiasi cosa somigliasse ad uno spam engine.

E infatti figurati se a Google Search, dopo tante pene dietro agli spam engine, sarebbe mai venuto in mente di trasformarsi in spammer, spammare il proprio prodotto e far indicizzare al motore quantità stupefacenti di paginacce di risultati di ricerca. Impossibile.

Ma Google Trends è un altro prodotto.

La maxi-porcata passata inosservata: le evidenze

Guardate lo screenshot che segue.

Un file sitemap spammoso

Quello che vedete nello screenshot è un pezzo di un file sitemap (non XML ma di quelli semplici, con un URL per riga) usato a suo tempo dal servizio Google Trends. All’epoca, era possibile cercare su Google Trends il nome di un qualsiasi dominio e ottenere un grafico con la stima dell’andamento del traffico sul dominio indicato. Questa funzionalità, figherrima, è stata successivamente rimossa perché, appunto, figherrima.

Ma durante il periodo in cui la funzionalità esisteva ancora, il team di Google Trends aveva pensato bene di creare dei file sitemap attraverso i quali indurre il motore di ricerca ad indicizzare quantità industriali di pagine di statistiche su una pletora di nomi di dominio.

Nello screenshot allegato ho evidenziato alcune pagine di Google Trends che contenevano le stime di traffico di domini di natura zozzereccia, per farvi vedere che l’elenco non era limitato a pagine dedicate a siti di alta qualità.

Si trattava quindi di pagine di risultati della ricerca di nomi di dominio su Google Trends, in pratica landing pages tematizzate su specifici nomi di dominio e che non ricevevano alcun link: venivano proposte a Google Search solo attraverso file sitemap.

Quanto appena descritto è uno spam engine. E possiamo controllare che tutti gli elementi identificatori di uno spam engine siano effettivamente presenti:

  • Pagine contenenti risultati di una ricerca. Check!
  • Quantità industriali delle suddette. Check!
  • Contenuti di bassa qualità. Check!
  • Creazione funzionale solo all’indicizzazione da parte di un motore di ricerca popolare. Check!

La faccenda, se non ci fosse da indignarsi, potrebbe passare quasi per una comica surreale. All’interno di un’azienda che ha combattuto per anni contro il danno prodotto dagli spam engine all’indice del proprio motore di ricerca, qualche frangia irrequieta ha creato uno spam engine interno per far indicizzare a Google Search una fracca di risultati di ricerca di Google Trends.

Quale spiegazione può essere trovata di fronte a tale scempio? Quella gente credeva davvero che far indicizzare centinaia di migliaia di pagine con le statistiche di siti della levatura di porcoporco.biz avrebbe incrementato la qualità dei risultati di ricerca su Google?

Ma forse l’aspetto più triste dell’intera vicenda è che nessuno di noi si sia reso conto di questo malaffare durante l’esistenza di tale funzionalità di Google Trends.

I file sitemap con le chilometriche liste di pagine da far indicizzare sono rimasti online per quasi due anni, per dimenticanza o incuria, anche dopo la rimozione da Google Trends della possibilità di fare ricerche sul traffico di nomi di dominio. Tutte le centinaia di migliaia di URL in quei file sitemap generavano uno stato HTTP 404.

Sapete quando Google ha finalmente fatto pulizia di quei file sitemap obsoleti, cancellandoli ed eliminando le ultime prove ancora esistenti del misfatto? Forse non la prenderete bene: è stata colpa mia. La reazione è avvenuta quando John Mueller ha letto il seguente post su Google+:

Il post di Google+ in cui segnavo le sitemap spammose

Insomma, tempo due giorni ed i file sitemap obsoleti sono stati cancellati e, con loro, le pistole fumanti. L’unica testimonianza storica rimasta dello spam engine creato da Google Trends attraverso i file sitemap è il mio screenshot.

La maxi-porcata passata inosservata: l’indagine

Il resoconto del fattaccio termina qua, ma magari possiamo fare di necessità virtù e sostituire la giustificata ma improduttiva indignazione con l’obiettivo di imparare qualcosa di concreto e utile da questa vicenda.

Ho dunque pensato di illustrarvi i passi che ho compiuto per rendermi conto della faccenda, anche per confermarvi che una delle caratteristiche indispensabili di un SEO dovrebbe essere una certa predisposizione a voler indagare, attitudine che viene sopratutto utile nel momento in cui bisogna analizzare la condizione di un sito e capire se, quanto e come il motore di ricerca ha digerito i suoi contenuti.

Il primo passo verso la strada che mi ha portato ad individuare il comportamento spammoso l’ho compiuto perché periodicamente do un’occhiata al file robots.txt di Google.com. Si tratta di un file ricchissimo di informazioni sulle directory usate da Google per i propri servizi web ed in un paio di occasioni si è rivelato prodigo di informazioni in anteprima o di contenuti interessanti non raggiungibili attraverso link dal sito di Google.

Nel caso in questione, tuttavia, la mia attenzione si è focalizzata per la prima volta in fondo al robots.txt, che ospita gli URL di alcuni file sitemap. C’è un po’ di tutto, ma quello che stonava di fronte a tutto il resto era un file sitemap index dedicato a Google Trends. Per quale motivo un servizio con così poche pagine necessitava di un file sitemap index?

Questo file non esiste più online ma viene ancora citato in fondo al robots.txt nel momento in cui scrivo, per quei soliti motivi di incuria che ho compreso essere non rari tra chi ha il compito di gestire questi aspetti.

Il primo file sitemap indicato palesava già il torbido giochino elucubrato da Google Trends: si trattava in maniera estremamente ovvia di URL di query di ricerca, come quelle dello screenshot che vi ho mostrato. Una lettura più approfondita ha reso evidente che la qualità dei domini oggetto delle query era anche estremamente bassa e questo chiudeva il cerchio sulle intenzioni e l’indole di chi aveva pianificato l’attività di spam.

Conclusioni

Spero di avervi trasmesso un’immagine di Google più distante da quella coscienza unica che molte persone gli attribuiscono erroneamente. Google è un’azienda composta da circa 50.000 dipendenti e più che considerare la compagnia una flotta informe di oggetti guidati da una regia comune, è più realistico considerare Google una piccola cittadina all’interno della quale molti abitanti non si conoscono o, più tristemente, si limitano a guardare il proprio orto senza troppi scrupoli nei confronti del Search Team.

Il mio suggerimento, quando si desidera valutare l’operato e le azioni di questa e di altre aziende molto grandi, è quello di definire innanzitutto di quale testa dell’idra si sta parlando.

Idra

P.S.
Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.

6 Responses to Quando Google spamma sé stesso: una malefatta passata inosservata

  1. garethjax scrive il 6 August 2014 at 10:05

    interessante, stamattina pubblico su google+ il mio ritrovamento, vediamo se john interviene :)

  2. Yuri Carlenzoli scrive il 6 August 2014 at 10:06

    Grande “storyteller” Enrico!, a volte rimango inorridito anch’io dai risultati, però, pensando a Google … che pensa agli utenti mi domando se quei risultati possono essere utili ed interessanti per qualcuno, come i vari tools che fanno il whois od i tools automatizzati che incorporano contenuti presenti da varie fonti e mostrano le “metriche SEO”.

    Ripeto, a me non piacciono, a qualcuno possono piacere, in SERP non appaiono sempre ma “solo” se si fanno query che cercano informazioni riguardanti il dominio, alla fine non danno molto fastidio.

    Ciao,
    Yuri.

  3. Giacomo Pelagatti scrive il 6 August 2014 at 13:16

    Mi associo alla perplessità di Yuri: non escluderei che le pagine di Google Trends restituite nei risultati della ricerca web potessero essere utili a chi cercava informazioni su un sito/dominio (anche per adulti; perché no?). Del resto ci sono tantissimi siti, di qualità variabile, che offrono informazioni statistiche su siti/domini e che vengono restituiti nei risultati di ricerche come [example.com]: se Google non li ha ancora estromessi dalle SERP, il motivo magari è proprio che sono una risposta possibile/accettabile per alcune tipologie di query informative.

    Sempre facendo l’avvocato del diavolo, noto inoltre che il servizio (Trends) non era stato creato appositamente allo scopo di “spammare” Google Search, operazione della quale faccio anche fatica a vedere un tornaconto… Perciò non sono sicuro che si possa parlare di uno “spam engine”.

  4. LowLevel scrive il 6 August 2014 at 13:48

    Un chiarimento riguardo lo spam engine: ho attribuito tale nome all’operazione di far indicizzare tante pagine di risultati di ricerca, non al servizio Google Trends nel suo complesso.

    Detto ciò, non discuto sull’opinabilità di quanto lo spamdexing di grandi quantità di pagine possa essere teoricamente utile a qualche utente di Google. Purché la stessa opinabilità sia considerata estensibile a qualsiasi forma di search spamming: io posso fare cloaking per fornire al motore contenuti più ricchi in modo da ottenere visibilità per un sito che gli utenti comunque ameranno e troveranno utilissimo per altre ragioni. Il cloaking però rimane una forma di spam.

    Al di là di tutto, anche John considera corretta l’affermazione secondo la quale l’attività non era molto compatibile con le loro linee guida di qualità.

    @Giacomo:

    se Google non li ha ancora estromessi dalle SERP, il motivo magari è proprio che sono una risposta possibile/accettabile per alcune tipologie di query informative.

    Questa frase me l’ha detta un nostro collega, duranti gli anni degli spam engine, per giustificare (sulle SERP di Google, a sé stesso e al mondo) l’esistenza del proprio spam engine. 😀

    Secondo me: ogni spam engine è bello a mamma soja.

  5. Giacomo Pelagatti scrive il 6 August 2014 at 16:55

    Per come la vedo io, non è la quantità che fa la spam, ma la qualità. E l’arbitro della qualità è Google, ma come ben sappiamo Google guarda all’utilità per l’utente. Quindi in definitiva chi decide dove finiscono i risultati che forniscono un valore informativo aggiunto e dove comincia la spam è sempre l’utente, che ci piaccia o meno.

    Il servizio di Trends ora rimosso forniva informazioni utili (tu stesso lo ammetti nel post) e non reperibili altrove, perciò credo che in quel caso un po’ di valore aggiunto ci fosse, anche se si tratta di un valore molto soggettivo, perché la rilevanza va sempre misurata sui bisogni specifici di chi effettua una ricerca.

    Dietrologicamente resta il dubbio, legittimo, sulla tecnica utilizzata per far indicizzare a Google le pagine di un servizio di Google stessa, quando avrebbero potuto benissimo prendere i dati dal database di Trends e restituirli sulle SERP rilevanti, magari con un link “Guarda le statistiche di example.com su Google Trends”, o addirittura con una onebox. Ma quella soluzione forse era stata scartata per prevenire possibili eccezioni da parte di concorrenti ed organismi antitrust.

    Comunque concordo con la teoria dell’idra, e non mi sorprenderei se la decisione di far indicizzare quelle SERP fosse stata presa in autonomia dal team di Trends all’oscuro del Search Quality, magari con l’obiettivo di risollevare le sorti di un prodotto sottoutilizzato che era già sulla lista nera. Di sicuro sono in pochi a sapere come siano andate veramente le cose, e noi possiamo solo formulare ipotesi più o meno plausibili… Salcazzo. :]

  6. Lorenzo Bonarini scrive il 23 June 2015 at 12:49

    Mi è tornato in mente questo post stamattina e dopo quasi un’anno il link alla defunta sitemap è ancora in quel robots.txt. Scommettiamo sulla data di rimozione?

Lascia un commento

More in Just SEO
La SEO sulla spiaggia: case di link costruite sulla sabbia

E' notizia di qualche giorno fa che una nota impresa internazionale di spaccio di tool, articoli e graduatorie di fattori...

Close