Commenti

Pubblicato da LowLevel in Analytics

il 6 December 2011

Cagate SEO virali: web analysis di un fenomeno sociale

Mi sono reso conto con un po’ di stupore di non aver ancora affrontato su questo blog il tema della web analysis, se non in modo indiretto.

In realtà sono estremamente affascinato dallo studio e dall’interpretazione dei fenomeni sociali su Internet e in particolare sono attratto da una web analytics che:

prende le distanze dai calcoli statistici fini a sé stessi: possedere numeri senza applicarvi chiavi di lettura qualitative non mi interessa
è focalizzata sull’interpretazione dei fenomeni
parte da dati grezzi per estrarre informazioni latenti attraverso metodologie custom (mi hanno fatto notare che “metodologie custom” nun se po sentì. lo lascio per autopunirmi)

Per dirla in altre parole, lo scriptino che si limita a conteggiare eventi mi interessa molto poco e sono più stimolato nel creare da me soluzioni di analisi personalizzate in grado di fornire informazioni che solitamente non si trovano facilmente in giro.

Siccome un po’ di settimane fa ho scritto un articolo che è stato molto condiviso tra gli addetti ai lavori (quello delle “10 cagate SEO“) ho pensato di approfittarne per studiare il fenomeno di condivisione e per illustrarvi la metodologia seguita ed i software che ho utilizzato.

Mi auguro che l’attività e le considerazioni che condividerò possa esservi di spunto per svolgere analisi simili.

Caratteristiche dell’analisi

Nei paragrafi che seguono analizzerò il fenomeno di condivisione a cui è stato soggetto il mio articolo sulle cagate SEO, che ho linkato sopra. Si tratta dell’articolo di LowLevel.it che, nel momento in cui scrivo, è in assoluto quello che ha ricevuto più like/tweet/whatever dalla nascita del blog.

Per di più, si è trattata di una delle poche volte in cui i contenuti del blog hanno raggiunto persone che non appartenevano allo “zoccolo duro” dei SEO italiani ma, più generalmente, erano interessate di web marketing.

Per estrarre delle informazioni interessanti dal marasma che l’articolo ha prodotto sui diversi social network è stato necessario limitare il campo di studio e quindi mi sono focalizzato sulla ricezione dell’articolo da parte di Twitter.

Partendo dalla data di pubblicazione dell’articolo ho dunque monitorato per una decina di giorni i tweet ad esso relativi usando IceRocket (maggiori informazioni sui software usati sono presenti in fondo a questo post). Ho raccolto il testo di ciascun tweet, ho cercato di capire se si trattava di tweet nuovi o di retweet e ovviamente ho conservato i nomi degli utenti che li hanno scritti.

In tutti i grafi che seguiranno, laddove osserverete un nodo A puntare una freccia ad un nodo B, significa che A ha indotto B a fare un retweet. Detta più semplicemente: “B ha ricondiviso un tweet di A”.

Nei grafici troverete anche un utente “AddToAny” che non è realmente un utente Twitter bensì il plugin di condivisione che uso su LowLevel.it e che è stato usato da diversi utenti per condividere su Twitter l’articolo delle cagate SEO.

Influencer (chi è stato retwittato)

Nel grafico che segue ho evidenziato in arancio gli utenti che hanno prodotto tweet che sono stati poi retwittati da altri. Ho chiamato quindi “influencer” chiunque abbia indotto qualcun altro a fare un retweet.

In questo primo grafico ho assegnato lo stesso colore a tutti gli utenti che hanno indotto in altri un retweet, senza fare alcuna distinzione tra di loro. Si tratta dunque di un grafico che ha solo l’obiettivo di mostrare una visione d’insieme del fenomeno delle condivisioni.

L’unica informazione di tipo qualitativo che se ne può già trarre con una semplice occhiata è che alcuni influencer hanno contribuito più di altri alla diffusione dell’articolo; il prossimo grafico evidenzia proprio questo fenomeno.

Tutti gli utenti che hanno indotto altri a retwittare

Contributor (chi ha indotto più retweet)

In un fenomeno di ricondivisione ci sono sempre alcuni utenti che contribuiscono più di altri alla diffusione della risorsa e al buzz che vi si crea attorno.

In questo secondo grafico ho voluto evidenziare con colori diversi coloro che hanno indotto più retweet negli altri utenti: la scala dei colori va dal giallo pallido (contributo minore) al rosso acceso (contributo maggiore).

E’ importante evidenziare che l’utente che coincide con la fonte originale della notizia/risorsa (enricoaltavilla) è stato anche colui che ha indotto la quantità maggiore di retweet, come era facile immaginarsi.

Emerge però un problema in fase di attribuzione dei pesi e dei corrispondenti colori: se avessi attribuito i colori seguendo una distribuzione lineare, enricoaltavilla avrebbe ottenuto un rosso acceso e tutti gli altri utenti, molto distanti dalle sue “performance”, avrebbero ottenuto un giallo pallido. Il grafico che ne sarebbe derivato non sarebbe stato in grado di fornire le informazioni che mi interessava estrarre ed ho allora applicato una distribuzione non lineare (logaritmica) dei valori in modo che i colori venissero attribuiti in modo più uniforme.

Gli utenti che hanno contribuito a far nascere più retweet

Vi chiedo di ricordarvi i nomi degli utenti che, in base al grafico, hanno contribuito di più, perché di alcuni ne discuterò ancora: enricoaltavilla, giorgiotave, ppiersante, vnotarfrancesco e 4everyoung.

Efficiency (rapporto tra retweet e follower)

Il grafico precedente evidenzia tuttavia delle informazioni meramente quantitative: è possibile notare quanti retweet sono stati indotti da ciascuno utente ma niente di più.

Proprio per la voglia di allontanarmi un po’ dal semplice conteggio di eventi, ho allora pensato ad un indice di efficienza, che ho calcolato facendo il rapporto tra i retweet indotti da un utente ed il numero dei suoi follower.

Logica vorrebbe che gli utenti con più follower siano più facilitati a generare una quantità di retweet maggiore ma mi sono chiesto quanto questa capacità sia stata effettivamente proporzionale al numero dei follower: se chi ha cento follower induce un retweet, chi ne ha mille ne genera dieci? La risposta è “non necessariamente”.

Il grafico che segue assegna i colori proprio in base all’indice di efficienza sopra descritto e già si notano le prime differenze col grafico precedente: l’utente giorgiotave, pur possedendo una quantità di follower superiore a chiunque altro, non ha indotto la nascita di una quantità di retweet proporzionale al numero dei follower. Mentre si sono comportati molto bene gli utenti vnotarfrancesco, marco_baraldi e wmfitalia.

Gli utenti che, percentualmente sui propri follower, sono stati retwittati di più

Per inquadrare correttamente il fenomeno vi ricordo che, come accade sempre nelle statistiche, i risultati dipendono dalle definizioni che lo statistico dà ai propri indici di performance. Per esempio, l’efficienza calcolata col rapporto sopra indicato si fonda sui retweet generati e non prende in considerazione alcuna altra informazione, come il traffico generato dai tweet o retweet o l’orario in cui il retweet è stato fatto.

Non è un caso che proprio l’utente giorgiotave sia stato una delle fonti di maggior traffico verso l’articolo delle 10 cagate SEO, in barba a qualsiasi evidenza sui suoi risultati sul numero di retweet indotti.

Va inoltre detto che il calcolo di efficienza si limita a mostrare la stessa in quanto tale, senza dare una spiegazione del perché per alcuni utenti la quantità di retweet generati non è proporzionale al numero dei loro follower. Su questo punto tornerò nella sezione dei limiti dell’analisi.

Creativity (chi ha riscritto il tweet)

Osservando il grafico dell’efficienza mi son chiesto perché alcuni utenti, prescindendo dal numero dei loro follower, avessero contribuito più di altri alla ricondivisione della risorsa linkata.

Ho allora dato un’occhiata al testo dei loro tweet/retweet ed ho notato che gli utenti che erano stati più bravi a indurre altri a retwittare corrispondevano anche agli utenti che non si erano limitati a fare il retweet ma che avevano modificato il testo originale aggiungendo un parere o una call-to-action.

Come prova di questa osservazione ho calcolato la distanza di Levenshtein tra ciascun (re)tweet e la frase “Le 10 cagate SEO di cui non si dovrebbe parlare più”, che corrisponde al testo del tweet originale diffuso dall’utente enricoaltavilla.

La distanza di Levenshtein è un semplice algoritmo che calcola quanto diversi sono due testi tra loro; non è utile spiegare in questa sede il suo funzionamento interno, per i curiosi c’è la voce su Wikipedia.

Il grafico che segue è stato prodotto evidenziando di più proprio gli utenti che hanno riscritto in toto o in parte il testo del tweet originario. Spesso sono state aggiunte all’inizio del tweet delle call-to-action o degli aggettivi molto positivi.

Chi ha prodotto retweet scrivendo un testo nuovo o aggiungendo opinioni

Comparando tale grafico con quello dell’efficienza, si nota una certa sovrapposizione: gli utenti che sono emersi come più efficienti nel grafico precedente sono spesso coloro che hanno riscritto il testo del tweet.

Attenzione a non commettere un errore di logica: l’analisi mostra che coloro che sono stati più efficienti combaciano in buona parte con coloro che hanno riscritto il tweet, ma non vale il contrario. In altre parole, riscrivere il tweet e magari inserire una call-to-action o un aggettivo positivo non è sufficiente ad indurre altri a retweettare.

Si noti che per percepire correttamente il fenomeno di ricondivisione è importante non limitarsi allo studio dei singoli utenti, proprio perché i legami e le relazioni tra essi sono a volte sfumate.

Per esempio, piuttosto che parlare di efficienza dell’utente wmfitalia sarebbe più corretto parlare dell’efficienza del “gruppo” wmfitalia/AleSportelli, in quanto il secondo utente fa capo alla persona che ha fondato WebMarketingForum e che presumibilmente gestisce anche l’utente wmfitalia.

Allo stesso modo, invece di focalizzarsi solo sulle “prestazioni” dell’utente marco_baraldi, sarebbe più opportuno valutare la zona marco_baraldi/rickytato, che sembrano aver contribuito alla ricondivisione dell’articolo originario in più di un modo.

Altre valutazioni

Da tutti i grafici riportati, dovrebbe essere comunque chiaro che gli “elementi trainanti” in un fenomeno di diffusione virale sono almeno:

il contributo quantitativo di chi è molto seguito
la spinta di chi incentiva esplicitamente al click
le opinioni espresse sulla risorsa condivisa
quanto la risorsa riscuote interesse

In tutti i grafici appare anche il “contributo” si AddToAny, che è lo strumento di condivisione che viene usato su questo sito per condividere gli articoli e che nel caso delle 10 cagate SEO sembra essere stato usato estesamente dagli utenti. E’ sicuramente vero che alcuni utenti hanno preferito usare il pulsante di condivisione sul sito invece che fare semplicemente retweet, ma siccome gli utenti che hanno usato lo strumento potrebbero anche non essere arrivati da Twitter, non c’è modo di concludere quanto AddToAny sia stato utilizzato proprio nel contesto di ricondivisione tra i twittaroli.

I grafici sono stati prodotti in modo da rendere evidenti anche i doppi retweet fatti dallo stesso utente. Nel caso dell’utente vnotarfrancesco, per esempio, il contributo alla ricondivisione è stato particolarmente alto perché oltre a limitarsi a retweettare il tweet originale, ne ha prodotto un secondo con un testo divertente. Il fatto che l’utente venga sempre evidenziato in maniera consistente in tutti i grafici, ognuno dei quali visualizza un indice diverso, lascia intendere che l’utente ha funto da catalizzatore, contribuendo più di altri alla diffusione dell’articolo.

Limiti dell’analisi

La presente analisi ha tanti limiti, due dei principali sono:

non viene preso in considerazione l’orario dei tweet, rendendo pertanto difficile capire perché alcuni utenti con molti follower non hanno indotto alla creazione di una quantità di tweet proporzionale;
non vengono presi in considerazione i fenomeni sociali inter-network: trattare Twitter o qualsiasi altro ambiente sociale (motori di ricerca compresi) come una scatola chiusa è un errore in partenza ed un grande limite alla comprensione di fenomeni più grandi.

Ciononostante ritengo che aver tirato fuori dal cappello qualche indice che è andato oltre il solito conteggio stupido di elementi possa aver dato l’idea di quale è la web analysis che mi piace di più.

Strumenti usati

I dati sui tweet sono stati raccolti col motore di ricerca IceRocket
I grafici sono stati prodotti con GraphViz
Excel ed un text editor sono stati usati per produrre i file in formato DOT che GraphViz accetta

Trovate tutto il malloppo di file prodotti e grafici finali in questo archivione ZIP.

Fatemi sapere se questa valutazione dei fenomeni virali vi è piaciuta e se vi piacerebbe leggerne delle altre. Spero che tutto ciò sia di spunto a qualcuno per produrre analisi ancora più interessanti. 🙂

3 Responses to Cagate SEO virali: web analysis di un fenomeno sociale

Marco Antonutti scrive il 6 December 2011 at 16:35

Innanzitutto complimenti per l’impegno speso a condividere e commentare i dati.
Secondariamente avevo due questioni: l’algoritmo di Levenshtein prende in considerazione stringhe, o parole, e le confronta cercando di capire quanto si differenzia il testo dato da un altro. E’ tutto molto bello, ma dici che è giusto prenderlo in considerazione come indice?
Cioè una frase è molto di più di un insieme di lettere, e, sicuramente, alcune parole aumentano l’engagement. Non sarebbe stato meglio utilizzare algoritmi di riscontro misti ad altri che ne calcolassero la leggibilità?
A quel punto, avendo davanti molti più dati, uno potrebbe anche farsi una formuletta amatoriale e cercare di capire per evidenza se il reshare è dipeso dalla creatività dell’utente o dal suo network.(o dall’orario)

Reply
- LowLevel scrive il 7 December 2011 at 11:12
  
  @Marco: ho usato l’algoritmo di Levenshtein, di per sé molto grezzo, perché l’ho ritenuto compatibile con l’obiettivo da raggiungere in quello specifico contesto, ovvero comprovare algoritmicamente un fenomeno già percepibile all’occhio: chi è stato più efficiente nel farsi retwittare è stato anche creatore di un testo originale.
  
  Non c’era quindi l’obiettivo di svolgere analisi di contenuto o semantiche per estrarre il “sentiment” dei tweet, che peraltro nel contesto di Twitter (caratteri limitati, penuria di frasi di senso compiuto, presenza di elementi estranei a frasi di senso compiuto) e nello scenario analizzato (il numero di twit è molto basso) non avrebbe probabilmente prodotto informazioni attendibili.
  
  Su quantità (molto) maggiori di testi sarei comunque curioso di svolgere anche analisi di tipo semantico. 🙂
Serena scrive il 4 February 2013 at 14:57

Ciao, ho trovato molto interessante il tuo post. Sono una studentessa dell’Università di Bologna, sto svolgendo una tesi sulla sentiment analysis e sto utilizzando proprio un approccio semantico. Il mio problema maggiore è riuscire a fare un database di dati, ho chiesto ad alcuni soggetti su cui ero interessata a condurre la mia indagine se potevano mandarmi i file in .csv (prevalentemente ONG), facilmente scaricabili per chi amministra una pagina facebook, ma non mi hanno mai risposto. Riesco facilmente a scaricare tweets tramite google docs, riesco anche ad averne l’orario. Ma non capisco come visualizzare i retweets (forse ho una qualche tara io). Potresti spiegarmi meglio come hai estratto i file da IceRocket, perfavore? O darmi qualche consiglio? Non studio informatica ma un’interfacoltà tra statistica e scienze politiche e mi accorgo di avere alcuni limiti. 🙂

Reply