Opinion spam: un nuovo algoritmo becca le recensioni false

Alla recente conferenza WWW tenutasi a fine aprile sono state presentate, come ogni anno, una nutrita serie di documenti e studi che proponevano nuove metodologie per meglio comprendere e analizzare il web.

Opinion spammingUna parte delle paper presentate alle conferenze WWW riguardano spesso nuovi algoritmi per classificare informazioni, fare il ranking di risorse o individuare lo spam. In altre parole, algoritmi di information retrieval, la disciplina su cui si basa la tecnologia dei motori di ricerca.

Leggere i documenti presentati ad ogni conferenza è un buon modo per capire di che cosa sono teoricamente capaci gli ingegneri dei motori di ricerca o di altri servizi web che gestiscono grandi quantità di dati. Io ritengo che le informazioni acquisite leggendo questi documenti siano molto più significative di quelle che si acquisiscono leggendo i brevetti degli algoritmi di Google.

Quest’anno, un documento in particolare ha attratto la mia attenzione e vi linko anche il PDF: “Spotting Fake Reviewer Groups in Consumer Reviews“.

Si tratta di una nuova metodologia chiamata GSRank, nata per individuare attività di opinion spamming e in particolare gruppi di recensori falsi tra quelli veri e genuini che scrivono recensioni o opinioni sui portali di prodotti o servizi.

Il documento non è scritto in inglese molto scorrevole e rutta anche un po’ di matematica; il presente articolo ha l’obiettivo spiegarvi questa nuova metodologia in modo che chiunque possa capirla.

Teoria e pratica

Se non conoscete bene le conferenze dedicate all’information retrieval, dovete innanzitutto sapere che esse sono sostanzialmente uno “sfoggio di tecnologia” da parte di diversi ricercatori.

Tanti ricercatori vanno a queste conferenze per mostrare nuove metodologie per risolvere diverse classi di problemi, quello dell’opinion spam è solo uno dei tanti.

In altre parole sono raduni ai quali i nerd vanno a fare i fighi. Nessuno li biasima per questo, c’è chi si sfoga ai rave party e c’è chi gode mostrando al mondo quanto ha grosso il cervello.

Tuttavia bisogna fare attenzione: i nuovi algoritmi e le nuove metodologie illustrate sono spesso studi teorici e non c’è garanzia che i metodi spiegati siano già stati implementati da qualche azienda o che verranno implementati in futuro da qualcuno.

Quindi considerate l’algoritmo che sto per spiegarvi né più e né meno di “ciò che è teoricamente possibile fare“.

Introduzione all’opinion spamming

Come lo stesso documento spiega, i fenomeni di creazione di recensioni e opinioni false di prodotti o servizi sono aumentati considerevolmente negli ultimi anno perché tale attività genera indirettamente profitto.

La creazione di recensioni false, positive o negative che siano, modifica la percezione di un prodotto, servizio o marchio agli occhi degli utenti, col risultato di far propendere potenziali acquirenti verso una soluzione piuttosto che un’altra.

Come in tutti i contesti in cui è possibile creare valore, sono anche nate aziende e servizi che producono recensioni false per conto terzi, incrementando ulteriormente la vastità del fenomeno, che ormai ha assunto connotazioni industriali.

Finora gli approcci seguiti per individuare le recensioni false si son basati sostanzialmente sulla valutazione di singole recensioni e recensori, in cerca di elementi e segnali che potevano essere testimonianza di attività spammose.

GSRank, al contrario, utilizza un approccio molto diverso da quelli già esistenti, un approccio che garantisce risultati anti spam molto maggiori.

Peculiarità di GSRank

La principale caratteristica peculiare di GSRank è che non ha lo scopo di individuare recensioni false bensì ha l’obiettivo di individuare gruppi di recensori falsi.

Per “gruppo di recensori” non si intende necessariamente un gruppo di persone diverse ma, più generalmente, un insieme di ID (identificatori) utente di un sito web o servizio (es: EBay, Trip Advisor, ecc.). Dietro un gruppo di diversi ID utente poi ci può essere una singola persona fisica, un gruppo di persone o persino un software: per GSRank questo è del tutto irrilevante.

Per quanto possa sembrare strano, vien fuori che l’individuazione di interi gruppi di recensori farlocchi è più semplice dell’individuazione delle recensioni false.

Il nuovo algoritmo quindi parte dallo studio di un contesto più ampio, quello dei gruppi, e si basa sull’assunto (che il documento poi dimostra essere corretto) che un gruppo di utenti falsi e con uno specifico obiettivo mostra delle differenze rispetto al comportamento di un gruppo formato da utenti reali.

Esistono altre caratteristiche di GSRank che è importante evidenziare:

  • Nel documento si fa un esempio specifico sulla recensione di prodotti ma GSRank è in realtà applicabile a qualsiasi generico contesto in cui gruppi di utenti forniscono opinioni su qualcosa, quindi anche recensioni di esercizi commerciali
  • GSRank individua gruppi di utenti falsi a prescindere che essi siano creati/gestiti dal medesimo soggetto; l’algoritmo considera “gruppo” un qualsiasi insieme di utenti anche se i suoi componenti sono gestiti da spammer diversi
  • L’algoritmo è un grado di considerare appartenenti ad un gruppo anche quegli utenti che hanno prodotto recensioni (o dato voti) in momenti diversi e distanti tra loro
  • E’ indifferente se un gruppo ha l’obiettivo di migliorare la percezione di un oggetto/soggetto o di peggiorarla: l’algoritmo identifica un gruppo in funzione di quanto i comportamenti dei suoi membri si discostano dai comportamenti degli utenti che non vi appartengono

In quest’ultima affermazione risiede la particolarità dell’algoritmo e la ragione del perché si è dimostrato molto superiore rispetto a quanto finora esisteva: per definizione, un gruppo di utenti falsi ha un obiettivo da raggiungere e le attività svolte dal gruppo per raggiungere l’obiettivo sono ciò che lo differenzia da un generico gruppo di utenti che quell’obiettivo non ce l’ha.

Come funziona per sommicapi

Preso in esempio un ambiente contenente un insieme di recensioni e di recensori, GSRank studia l’intero scenario definendo tre elementi chiave del sistema: recensori, gruppi di recensori e prodotti/servizi recensiti.

Successivamente definisce un modello in base al quale queste tre diverse entità interagiscono tra loro, cioè cosa ciascuna di queste tre entità può raccontare delle altre due.

L’algoritmo stabilisce poi quali segnali possono essere indice di “spammosità” per un singolo recensore o per un gruppo di questi.

Infine, viene computata la spammosità finale di ciascun gruppo calcolando non solo quella diretta, cioè osservabile dai segnali di spammosità di un gruppo, ma sopratutto quella indiretta, inferita da quanto spammosi sono i singoli utenti del gruppo e quanto oggetto di spam sono i servizi o prodotto spammati dal gruppo stesso.

La spammosità di un gruppo che viene raccontata/rivelata dagli altri due elementi chiave del sistema rappresenta la principale peculiarità del nuovo algoritmo e la ragione per la quale le sue prestazioni sono superiori a quelle degli altri algoritmi finora esistenti.

I gruppi di utenti

L’algoritmo ha lo scopo di analizzare una comunità di utenti nel tentativo di individuare gruppi di essi che, quando vengono considerati assieme, mostrano comportamenti che deviano da quelli mostrati da un gruppo di utenti selezionati a caso.

Per ottenere questo risultato, GSRank prende in considerazione tutti i possibili gruppi di due o più persone che esistono all’interno della comunità di utenti da analizzare. Siccome l’algoritmo non ha idea di chi siano i recensori falsi, valuta tutte le combinazioni di gruppi possibili!

Combinazioni gruppiNell’immagine che allego vengono mostrati tutti i gruppi composti da due o più utenti estratti da una popolazione composta da cinque individui (A, B, C, D, E). Solo cinque individui producono 25 gruppi diversi da prendere in considerazione, se si esclude il gruppo di cinque elementi composto dall’intera popolazione.

Con popolazioni molto più grandi, come si può immaginare, la quantità di combinazioni sale in modo vertiginoso e i gruppi da prendere in considerazione diventano tantissimi.

Queste quantità sono però facilmente gestibili per quelle aziende che possiedono capacità di calcolo consistenti, come lo sono presumibilmente tutte quelle che sono proprietarie di grandi portali e siti che ospitano recensioni da parte di un vasto pubblico.

Tre elementi chiave

GSRank definisce tre entità:

  • i prodotti o servizi recensiti
  • i gruppi di utenti presi in considerazione dall’algoritmo
  • i singoli membri che compongono i gruppi

La forza dell’algoritmo risiede nel fatto che ciascuno di questi elementi è fortemente correlato agli altri due e che i fenomeni che emergono su una di queste tre entità forniscono informazioni importanti sulle altre entità rimanenti: per esempio valutando un prodotto o servizio recensito è possibile ottenere informazioni sia sui gruppi di utenti che lo hanno recensito sia sui singoli membri di tali gruppi.

Il concetto di spammosità

Relazioni in GSRankL’algoritmo sfrutta la stretta relazione esistente tra le tre entità sopra descritte per stabilire quanto un gruppo di utenti è spammoso, quanto un singolo utente è spammoso e quanto un prodotto/servizio è soggetto ad attività di spam da parte dei recensori.

Sono costretto a semplificare di molto i criteri descritti nel documento e le esatte relazioni che sono state stabilite tra le tre diverse entità, tuttavia i concetti di base che è importante memorizzare sono riassumibili come segue:

Un prodotto è considerato più soggetto a spam a seconda di:

  • quanto è stato spammato dai gruppi di utenti che lo hanno recensito
  • quanto ciascun gruppo che lo ha recensito è spammoso

Un gruppo è considerato più spammoso a seconda di:

  • quanto ha collettivamente contribuito a spammare prodotti diversi
  • quanto ciascun suo membro ha contribuito a spammare prodotti diversi
  • quanto tali prodotti sono globalmente oggetto di spam

Un singolo utente è considerato più spammoso a seconda di:

  • quanto sono spammosi i gruppi a cui appartiene
  • quanto oggetto di spam sono i prodotti che ha recensito

A questo punto, dando un’occhiata alle relazioni, si noterà che la definizione di spammosità per una delle tre entità dipende sempre dalla spammosità delle altre due entità rimanenti. “A” dipende da “B”, che dipende da “C” che a sua volta dipende da “A”. Come si esce da questo circolo vizioso per determinare chi è più spammoso di altri?

Fortunatamente esiste il modo di uscire da questo genere di logiche ricorsive, dove ogni elemento viene definito come dipendente dagli altri. Non è necessario scendere nei particolari di implementazione tecnici, fidatevi e sappiate che l’obiettivo è raggiungibile.

(chi ha letto almeno una volta la formula del PageRank dovrebbe provare una sensazione di deja vu, in quanto il valore di PageRank di una risorsa dipende sempre dal valore di PageRank delle risorse che lo linkano; ecco, il contesto e la metodologia per uscire fuori dalla ricorsività è simile)

Indicatori di spammosità per gruppi e individui

Per capire quanto il grado di spammosità di ciascun dei tre elementi influisce sugli altri due è comunque necessario partire da una base dati di partenza.

GSRank quindi definisce un elenco di segnali che evidenzierebbero un comportamento spammoso da parte di un gruppo ed un secondo elenco di simili segnali che evidenzierebbero un comportamento spammoso da parte di un singolo recensore.

Elencherò di seguito l’elenco di indicatori definiti dall’algoritmo. Per ciascuno di essi il documento fornisce la formula matematica usata, che io non riporterò. Descriverò invece gli intenti e la logica dietro ad ogni indicatore di spammosità.

che i seguenti indicatori siano scritti sulla pietra: nell’implementare realmente l’algoritmo l’insieme di indicatori può essere modificato o arricchito per meglio adattarsi allo scenario da analizzare.

Per esempio, per quanto il documento non includa tra gli indicatori l’indirizzo IP di ciascun utente recensore, non esclude che l’uso di segnali simili potrebbe aiutare l’algoritmo a produrre risultati ancora migliori.

Group Time Window (GTW)

Questo indicatore calcola la durata della finestra temporale all’interno della quale gli utenti di un gruppo si sono mossi assieme, pubblicando recensioni per uno o più prodotti.

L’assunto è che un gruppo di recensori è più incline ad essere spammoso se ha pubblicato assieme recensioni in un periodo di tempo ristretto.

Se la distanza tra la prima e l’ultima recensione di un prodotto pubblicata dai componenti di un gruppo supera una certa quantità di tempo (es: tre mesi), l’indicatore di spammosità è pari a zero. Tale quantità di tempo è una variabile del sistema, ovvero può essere personalizzata in fase di implementazione dell’algoritmo per meglio venire incontro alle caratteristiche del sistema di recensioni da valutare.

L’indicatore GTW fa anche una cosa molto furba: non considera un gruppo spammoso in base ad una media dei suoi comportamenti osservati su più prodotti ma in base al suo “comportamento” peggiore registrato su tutti i prodotti recensiti dal gruppo.

In altre parole, se un gruppo di recensori pubblica diverse recensioni del prodotto A nel tempo di una settimana e diverse recensioni del prodotto B nel tempo di un mese, l’indicatore di “collusione” tra i componenti del gruppo è dato dalla settimana di tempo trascorsa per recensire il prodotto A.

Group Deviation (GD)

Questo indicatore calcola quanto l’assegnazione di un voto ai prodotti da parte di un gruppo, per esempio l’attribuzione delle tipiche stelline, devia dalla valutazione fatta dai componenti che non appartengono al gruppo.

Come per l’indicatore precedente, viene preso in considerazione non una media dei voti del gruppo su più prodotti ma la deviazione massima osservata per il gruppo su tutti i prodotti recensiti dallo stesso.

Group Content Similarity (GCS)

Questo indicatore calcola un indice di similarità tra i testi delle recensioni di un gruppo e considera più spammosi i gruppi che mostrano un indice più alto di similarità tra le proprie recensioni.

La ragione dell’esistenza di questo indicatore nasce dall’osservazione che per ottimizzare tempi e costi, a volte gli spammer sono soliti produrre i testi delle recensioni partendo da recensioni già scritte da altri utenti.

Anche se nel documento non viene specificato, faccio notare che l’indice di similarità aumenta anche nel caso in cui i testi delle recensioni siano simili tra loro in funzione di template testuali usati per velocizzare la produzione dei testi.

Per calcolare la similarità tra una coppia di recensioni prodotte dai componenti di un gruppo viene usato un indice popolare in information retrieval, quello del cosine similarity.

Ritornerò su questo particolare nella sezione “Opportunità per spammer e anti-spammer”.

Group Member Content Similarity (GMCS)

Il GMCS è simile al precedente indicatore GCS, con la differenza che ad essere considerato indice di maggiore spammosità è la similarità registrata tra i testi pubblicati da uno stesso utente prendendo in considerazione tutti i prodotti che ha recensito.

In parole più semplici, un gruppo è considerato più spammoso se i suoi componenti sono soliti riciclare per la recensione di un prodotto i testi già realizzati per recensire prodotti precedenti.

Group Early Time Frame (GETF)

Il Group Early Time Frame è un indicatore di spammosità che si basa su quanto presto un gruppo di recensori si è mosso nel recensire un prodotto on appena lo stesso è stato aggiunto in database.

L’osservazione degli spammer ha infatti fatto emergere che molti prodotti vengono spammati da un gruppo in un periodo molto vicino alla sua pubblicazione sul portale.

Questo indicatore è a mio giudizio uno dei più deboli dell’algoritmo, in quanto tenta di far emergere un comportamento che è tipico solo di alcuni contesti. Per esempio, nella recensione di strutture ricettive, le recensioni false arrivano spesso solo dopo molto tempo dall’inserimento della struttura nel portale di recensioni.

Bisogna però tener conto del fatto che un indicatore, per quanto poco utile sia, contribuisce comunque al calcolo della spammosità finale di un gruppo e che non può in ogni caso produrre una riduzione di spammosità ma solo un eventuale suo incremento.

Group Size Ratio (GSR)

Un gruppo di recensori è considerato più spammoso anche in funzione di quanti suoi membri hanno recensito un prodotto.

Se un prodotto viene recensito esclusivamente da un gruppo di recensori falsi, allora il gruppo controlla pesantemente il “sentiment” sul prodotto percepito dal lettore. Al contrario, se un prodotto viene recensito da molti altri utenti oltre a quelli del gruppo di spammer, allora il gruppo stesso avrà contribuito solo in modo limitato al sentiment percepibile sul prodotto da parte di un lettore.

L’indicatore Group Size Ratio considera più spammoso un gruppo se esso ha contribuito più massicciamente a determinare il sentiment sui prodotti, ovvero se le recensioni del gruppo sui prodotti hanno costituito percentualmente una buona fetta di tutte le recensioni ricevute dai prodotti stessi.

Group Size (GS)

Questo semplice indicatore considera più spammosi i gruppi con più componenti.

Può a prima vista sembrare un indicatore secondario, eppure se ci si pensa bene si comprenderà che è improbabile che un grande gruppo di utenti mostri comportamenti simili. Pertanto, in presenza di altri segnali di collusione tra i membri di un gruppo, è corretto considerare più spammosi i gruppi con un numero maggiore di componenti.

Group Support Count (GSUP)

Questo indicatore considera più spammosi i gruppi di utenti che hanno recensito gli stessi prodotti o servizi.

Recensire gli stessi prodotti, quindi, viene considerato uno dei segnali che indicano una collusione tra i membri di un gruppo e che quindi inducono GSRank a considerare più spammoso il gruppo stesso.

Individual Rating Deviation (IRD)

Da questo punto in poi inizia l’elenco degli indicatori di spammosita per i singoli utenti.

L’Individual Rating Deviation è un indicatore di spammosità che prende in considerazione quanto il voto di un membro su uno specifico prodotto si discosta dalla media calcolata sulle altre recensioni del prodotto.

Più il voto dell’utente diverge dalla media dei voti degli altri utenti e più quell’utente è considerato spammoso.

Individual Content Similarity (ICS)

L’ICS è un indicatore utile nei casi in cui uno specifico utente produca più di una recensione per lo stesso prodotto. In tal caso, viene calcolato un indice di similarità dei testi delle recensioni dello stesso prodotto e viene considerato più spammoso un utente i cui testi siano più simili tra loro.

Individual Early Time Frame (IETF)

Tale indicatore è simile a quello già discusso per i gruppi e considera più spammoso un utente che ha recensito un prodotto o servizio in un momento vicino all’inserimento del prodotto o servizio nell’archivio del portale.

Individual Member Coupling in a group (IMC)

Questo indicatore considera più spammoso un utente se le sue recensioni vengono pubblicate in date vicine a quelle degli altri componenti di un gruppo.

A differenza dei precedenti indicatori già visti per determinare la spammosità di singoli utenti, L’IMC è dedicato alla relazione tra l’utente e gli altri componenti di un gruppo e si tratta dunque di uno di quegli indicatori che tenta di far emergere una relazione tra utenti diversi.

Ultima fase: calcolo della spammosità dei gruppi

Definiti gli indicatori di spammosità di gruppi e utenti, GSRank passa alla fase finale delle proprie operazioni.

Sfruttando un metodo iterativo, calcola inizialmente gli indici di spammosità di un gruppo usando gli indicatori sopra descritti.

Successivamente, i valori di tali indici di spammosità per ciascun gruppo vengono alterati in base a quanto gli altri due elementi del sistema (prodotti e singoli recensori) raccontano del gruppo stesso.

Vengono in pratica usate le relazioni che ho spiegato nella sezione “Il concetto di spammosità” per allontanarsi un po’ da quanto gli indicatori di spammosità di un gruppo dicono del gruppo stesso e per avvicinarsi a quanto gli altri due elementi “raccontano” della spammosità di un gruppo. Qui sta la forza dell’algoritmo, il cui sostanziale scopo è quello di far emergere segnali latenti, non immediatamente individuabili prendendo in considerazione solo il comportamento del gruppo stesso.

Non è possibile spiegare ancor più nel dettaglio il funzionamento di questa fase finale dell’algoritmo senza far riferimenti a calcoli matriciali, vi basti sapere che alla fin fine si tratta di semplici somme di prodotti (intesi come risultati di moltiplicazioni, non nel senso di oggetti da acquistare sul vostro e-commerce preferito).

Questa ultima fase di calcolo termina quando gli altri due elementi “non hanno più nulla da raccontare” dei gruppi analizzati: iterazione dopo iterazione, gli indici di spammosità dei gruppi si assestano verso dei valori finali e quelli sono i valori di spammosità dei gruppi.

Pregi e difetti dell’algoritmo

Il principale pregio di GSRank consiste nell’essere in grado di far emergere segnali di spammosità di un gruppo che non sarebbero osservabili semplicemente focalizzando la propria attenzione sulle attività del gruppo stesso.

Un secondo, eccellente, vantaggio rispetto agli algoritmi già esistenti è che GSRank riesce a individuare interi contesti spammosi invece di singole recensioni false. Una volta individuati interi gruppi spammosi, questi possono essere gestiti dal portale di recensioni come ritenuto più opportuno; per esempio le recensioni prodotte da gruppi di spammer possono essere semplicemente cancellate dall’archivio, oppure i membri del gruppo possono essere banditi definitivamente dal sito che li ospita.

Uno dei principali difetti dell’algoritmo, invece, è che i valori iniziali di spammosità di un gruppo vengono calcolati in base ad indicatori (il loro elenco sta sopra) basati sulle attività di un gruppo su un singolo prodotto.

Se da un lato è vero che poi vengono fatte medie o presi valori massimi tra tutti i prodotti per i quali il gruppo ha prodotto recensioni, è altrettanto vero che per uno spammer risulta molto facile ridurre l’indice di spammosità di un proprio gruppo semplicemente facendo in modo che ciascun utente gestito produca solo una recensione, solo per un prodotto.

Opportunità per spammer e anti-spammer

L’algoritmo GSRank è molto robusto e sicuramente è in grado di tirar fuori risultati molto migliori rispetto agli altri algoritmi per l’individuazione di recensioni false.

Tuttavia è facile individuare qualche caratteristica che, opportunamente sfruttata, può aiutare gli spammer a ridurre i valori di spammosità che GSRank calcola per i gruppi.

Per esempio, l’indice di similarità dei testi usato da diversi indicatori di spammosità fa uso della formula della similarità del coseno. Non spiegherò come funziona, perché è sufficiente sapere che in base a tale formula due testi possono essere resi più dissimili tra loro semplicemente usando termini che sono unici. Se una recensione contiene quindi una o più parole che non appaiono mai (o molto raramente) in altre recensioni, allora la prima verrà considerata più unica e più dissimile dalle altre.

Come già accennato, inoltre, molti indicatori di spammosità si basano sulla relazione tra gruppo e specifico prodotto o servizio recensito, per poi fare medie tra indici di spammosità del gruppo registrati su prodotti o servizi diversi. Se lo spammer decidesse di usare ciascun utente del proprio gruppo solo per una recensione, allora priverebbe GSRank di buona parte del contesto che l’algoritmo sfrutta per determinare i valori di spammosità.

Il vantaggio per gli anti-spammer e chiunque necessiti di implementare GSRank consiste nel fatto che gli indicatori di spammosità possono essere modificati o arricchiti dall’implementatore in modo da far emergere ulteriori segnali di collusione tra utenti diversi.

In particolare, la reale forza dell’algoritmo è rappresentata dalla sua ultima fase di calcolo, che è quello che serve a “farsi raccontare” da prodotti e singoli utenti quanto un gruppo va considerato spammoso. Gli indicatori, invece, possono essere variati a seconda dello scenario di recensioni che si intende valutare.

Un elemento particolarmente utile all’implementatore è quel valore soglia di tempo che in alcuni indicatori viene usato per stabilire quanto un gruppo di utenti mostra segni di collusione. Nel documento che spiega il funzionamento di GSRank viene suggerito di usare un valore di alcuni mesi e questo implica che l’algoritmo è in grado di accorgersi di fenomeni di organizzazione di un gruppo anche nel caso in cui le sue recensioni sono distribuite nell’arco di diversi mesi.

Applicazioni e sviluppi

Se ci fate caso, noterete che la capacità di GSRank di individuare “movimenti organizzati” è applicabile anche a contesti del tutto diversi, per esempio quello della nascita di link sul web.

Questa affermazione dovrebbe solleticare l’interesse di più di un SEO.

Non lasciatevi infinocchiare

Un’ultima parola voglio spenderla riguardo la complessità delle formule contenute nel documento di GSRank e la semplicità di spiegazione che invece è stato possibile applicare per questo articolo: al di fuori dei contesti accademici o scientifici, per i quali la formalità matematica è necessaria, non fatevi fregare da chi vi ingolfa di astruse formule matematiche.

Algoritmo di GSRank

Semplici somme e moltiplicazioni scritte in modo strano

Posso garantirvi che nella stragrande maggioranza dei casi osservati nel contesto SEO sul web, gli articoli e i post di blog pieni di formule apparentemente incomprensibili vengono prodotti esclusivamente nel tentativo di far percepire una competenza maggiore dello scrittore.

Non c’è motivo di mostrare formule matematiche a chi la matematica la mastica poco, se non per fare i fighi.

Io sono dell’opinione che a fare copia e incolla di formule matematiche sian buoni tutti e che non vi siano reali intenti divulgativi quando le formule non vengono tradotte in un linguaggio comprensibile a tutti.

Non c’è formula di GSRank che non possa essere ricondotta ad una semplice sequenza di moltiplicazioni, divisioni o addizioni. Lo stesso vale per molte delle paper e dei brevetti di IR che vengono pubblicati.

Occhio a chi sfrutta la diffusa fobia per la matematica nel tentativo di sembrare più colto o più intelligente. E’ solo marketing. :)

P.S.
Pensavo che sarebbe interessante parlare di argomenti simili in qualche evento. Giusto per dire.

3 Responses to Opinion spam: un nuovo algoritmo becca le recensioni false

  1. Cesareone scrive il 17 May 2012 at 20:45

    Dico solo Grazie!! E tu sai…

  2. salvatore scrive il 3 June 2012 at 15:42

    Argomento attualissimo e di grande interesse! Se è vero che riesce a cogliere in fallo gli spammer che utilizzato template di scrittura più o meno fissi (più o meno come fanno gli article spinner), rimane nonostante tutto il problema delle recensioni false scritte da utenti singoli pagati su Fiverr e simili. Quello secondo me è un vero e proprio malcostume difficile da estirpare, e certamente è già qualcosa che esista un procedimento di questo tipo: mi auguro che sia implementato nella pratica e non resti su carta. Ciao, Salvatore

    • LowLevel scrive il 3 June 2012 at 16:01

      @Salvatore: l’aspetto interessante di questo nuovo algoritmo è proprio quello che il contenuto delle recensioni è relativo e rappresenta una parte minima della soluzione trovata. La tecnica di individuazione del gruppo è basata principalmente su caratteristiche comuni ai suoi membri che vanno al di là del testo della recensione; le recensioni potrebbero anche essere prive di testo e l’algoritmo avrebbe altri fattori sui quali basarsi per prendere una decisione.

Lascia un commento

More in Science
Il formato WebP di Google e il movimento anti-JPEG

Nota: questo post è un esercizio per spiegare concetti complessi con parole semplici. Nella sua crociata per velocizzare il Web,...

Close