Tag Archives: Spam

Quando Google spamma sé stesso: una malefatta passata inosservata

Ercole e l'idra

All’inizio pensavo di intitolare questo articolo “Quando Google spamma sé stesso: una torbida storia di potere e corruzione” ma sarebbe stato un po’ troppo romanzato e il titolo mi avrebbe stuzzicato la pericolosa idea di trasformare l’articolo in un racconto estivo ambientato in una New York del periodo proibizionista. Immaginavo già Larry Page con un fedora.

Alla fine ho ripiegato verso un titolo che va dritto al punto.

La prima cosa che dovete sapere è che l’immagine di Google che spamma sé stesso è tanto diffusa quanto impropria. È vero che alcune volte i responsabili del motore di ricerca sono arrivati a penalizzare siti web appartenenti all’azienda, ma sarebbe superficiale concludere di trovarsi di fronte ad un singolo soggetto con tendenze schizofreniche. Quindi vi spiegherò perché queste vicende avvengono.

La seconda cosa che dovete sapere è che un po’ di tempo fa ho beccato quello che considero il più atroce esempio di spam operato da un team di prodotto di Google ai danni di Google Search, un’attività di puro spam su larga scala, con l’obiettivo di riempire l’indice del motore di tanta roba di bassa qualità che non avrebbe meritato di essere indicizzata.

Questa aberrante e titanica malefatta è passata inosservata a tutti ed è stata purtroppo notata dal sottoscritto troppo tardi, quando ormai la tecnica di spam non aveva più senso visto che il servizio che tentava di promuovere sulle SERP non esisteva più. Se l’avessi beccata qualche anno fa sarebbe successo probabilmente un mezzo putiferio e mi mangio un po’ le mani per non essermene accorto prima.

La malefatta la racconto comunque, anche se in ritardo, perché è talmente grossa che è bene che tutti voi siate informati della cosa. Prendete i pop corn.

L’articolo continua, leggi il resto… »

I vantaggi di reinventare la (SEO) ruota

ingranaggi-moderni

Molti anni fa su un gruppo di discussione su Internet lessi un informatico che stava cercando di progettare un nuovo algoritmo di ricerca di pattern nei testi. Un secondo informatico gli chiese: “Esistono già molti buoni algoritmi di ricerca. Perché reinventare la ruota?” ed il primo rispose: “Perché a me serve un razzo.“.

A distanza di tanti anni ricordo ancora distintamente quella discussione perché in poche parole riusciva a dipingere uno scenario piuttosto comune tra quelle comunità che dovrebbero investire parte del proprio tempo in ricerca e sviluppo e che invece preferiscono adagiarsi alla comodità di quanto già esiste, persino quando non opportuno o non conveniente.

L’espressione “reinventare la ruota” è stata sempre sfruttata per evidenziare esclusivamente l’apparente perdita di tempo (e denaro) nel cercare di ottenere qualcosa che esiste già.

Se da un lato questo tentativo di dissuasione appare figlio del buonsenso e del tutto giustificato, dall’altro però è necessario precisare che il tempo speso nel reinventare una ruota va considerato un investimento azzardato esclusivamente quando si tenta di ottenere esattamente la stessa ruota.

Dunque mi chiedo: che effetti negativi possono scaturire da questi tentativi di dissuazione se poi bloccano sul nascere anche quei percorsi di ricerca che potrebbero far emergere soluzioni migliori a problemi apparentemente già risolti in via definitiva?

Avete mai avuto l’impressione che l’ambiente attorno a voi preveda che la ruota debba girare in un preciso modo ma che nessuno sappia esattamente il perché?

Questo articolo è dedicato alle ruote che nessuno vuole reinventare e a quelle dentate degli ingranaggi industriali, tra le quali si rimane incastrati quando si decide di seguire ciecamente i binari tracciati da altri. Compresi i binari della SEO.

L’articolo continua, leggi il resto… »

Opinion spam: un nuovo algoritmo becca le recensioni false

Alla recente conferenza WWW tenutasi a fine aprile sono state presentate, come ogni anno, una nutrita serie di documenti e studi che proponevano nuove metodologie per meglio comprendere e analizzare il web.

Opinion spammingUna parte delle paper presentate alle conferenze WWW riguardano spesso nuovi algoritmi per classificare informazioni, fare il ranking di risorse o individuare lo spam. In altre parole, algoritmi di information retrieval, la disciplina su cui si basa la tecnologia dei motori di ricerca.

Leggere i documenti presentati ad ogni conferenza è un buon modo per capire di che cosa sono teoricamente capaci gli ingegneri dei motori di ricerca o di altri servizi web che gestiscono grandi quantità di dati. Io ritengo che le informazioni acquisite leggendo questi documenti siano molto più significative di quelle che si acquisiscono leggendo i brevetti degli algoritmi di Google.

Quest’anno, un documento in particolare ha attratto la mia attenzione e vi linko anche il PDF: “Spotting Fake Reviewer Groups in Consumer Reviews“.

Si tratta di una nuova metodologia chiamata GSRank, nata per individuare attività di opinion spamming e in particolare gruppi di recensori falsi tra quelli veri e genuini che scrivono recensioni o opinioni sui portali di prodotti o servizi.

Il documento non è scritto in inglese molto scorrevole e rutta anche un po’ di matematica; il presente articolo ha l’obiettivo spiegarvi questa nuova metodologia in modo che chiunque possa capirla.

L’articolo continua, leggi il resto… »

Inizia il World Wide Web Conference 2011

WWW Conference 2011Oggi inizia il WWW Conference 2011, l’evento itinerante che vede protagonisti gli ingegneri e i ricercatori impegnati nello studio e lo sviluppo di soluzioni ed algoritmi per il Web. Quest’anno si tiene in India, a Hyderabad, e durerà dal 28 marzo a venerdì 1 aprile.

Come potete immaginare, i contenuti della conferenza comprendono anche i più recenti sviluppi nel campo dell’Information Retrieval e la lista di paper e interventi su questo argomento è davvero nutrita. Mi limito a segnalare alcune risorse di riferimento a tutti coloro che vogliono seguire a distanza l’evento.

Solitamente le paper oggetto delle sessioni vengono diffuse dopo l’evento. Per i temerari disposti ad avventurarsi nella loro lettura, la ricompensa sarà una visione più realistica di ciò che davvero muove i motori di ricerca. 🙂