Whatsup 0.2: rinominare i cluster

Whatsup è e rimarrà uno strumento semplice, votato all’appoccio KISS.

La ragione di tale scelta è che dovrà macinare informazioni che gli arrivano da Google in qualche modo già filtrate; il fatto che si tratti delle keyphrase che mostrano un picco di ricerche, rappresenta a tutti gli effetti una prima selezione operata dagli stessi utenti, prima ancora che dal motore di ricerca.

Tuttavia l’esiguità dei dati ed il fatto che l’approccio al clustering sia strettamente statistico, impone dei limiti nel momento in cui si vuol tentare di migliorare un po’ il risultato.

Uno dei due obiettivi della versione 0.2 di Whatsup era quello di rivedere i nomi da assegnare alle categorie (parlo al passato perché nel momento in cui scrivo è già pronta la versione 0.3).

Nella versione 0.1 i nomi dei cluster erano scelti estraendo semplicemente la singola parola più frequente nelle keyphrase, spostando in un cluster così nominato le keyphrase che contenevano la parola stessa e ripetere il processo cercando la nuova parola più frequente nelle keyphrase rimanenti.

Se date un’occhiata all’immagine della mappa mentale pubblicata sul post iniziale di Whatsup 0.1, noterete che i cluster prodotti con questo criterio presentavano parole quasi sempre ben correlate con il nome del cluster, ma a volte la scelta era “sgraziata”.

Per esempio il cluster che conteneva le keyphrase “asse terrestre” e “asse terrestre spostato” acquisiva semplicemente il nome “terrestre”.

Nella versione 0.2 di Whatsup sono stati dunque aggiunti dei controlli per rinominare ciascun cluster con espressioni di due o più parole contigue (si veda Ngram), purché presenti più di una volta nelle keyphrase associate al cluster stesso.

Potete osservare il risultato della modifica nell’immagine presente su questa pagina.

Mappa realizzata con XMind di un cluster creato da Whatsup 0.2

Mappa realizzata con XMind di un cluster creato da Whatsup 0.2

La soluzione funziona molto bene con i nomi propri di persone perché naturalmente composti da almeno due parole. E l’osservazione può essere ovviamente estesa anche ai nomi propri in genere, come si può notare dalla presenza di un cluster chiamato “explorer 9”.

Esiste tuttavia un rischio nel rinominare i cluster in questo modo: assegnando un nome più specifico ci si allontana dalla genericità attorno alla quale il cluster è stato costruito. Il che significa che una volta rinominato, il cluster potrebbe presentare al proprio interno keyphrase generiche concettualmente più distanti dal nuovo nome.

Questo effetto negativo non si coglie dall’immagine allegata al presente post ma non mancherò di farvelo notare nelle prossime clusterizzazioni quando capiterà. Va detto però che tale problema è stato minimizzato con l’acquisizione di una maggiore quantità di keyphrase, come spiegherò quando tratterò la versione 0.3 del software.

Ho anche scritto che la rinominazione dei cluster era il primo di due obiettivi che mi ero posto di raggiungere nella versione 0.2; qual’era il secondo?

Come potete notare nell’immagine, alcune keyphrase appaiono in neretto e sono le keyphrase che l’algoritmo giudica più “importanti” di altre. Nel prossimo post scriverò come tale selezione è stata operata.

4 Responses to Whatsup 0.2: rinominare i cluster

  1. Mix scrive il 23 March 2011 at 13:05

    Dai dai che ho bisogno di testarlo. 😀

    Un post su come hai rotto il giocattolo “google” per estrarre queste key quando sarà online?

    • LowLevel scrive il 23 March 2011 at 13:12

      > quando sarà online?

      Sono andato oltre il semplice scraping del suggest di Google News, come facevo in passato. Però devo ancora decidere se divulgare anche questi aspetti. Sono un po’ critici.

  2. Mix scrive il 24 March 2011 at 03:23

    Per critici intendi “borderline” ?

    • LowLevel scrive il 24 March 2011 at 07:26

      Le informazioni che ottengo non vengono fornite da Google per vie ufficiali. Fino a quando Google non deciderà di diffonderle ufficialmente, penso che sarebbe un po’ critico fornire dettagli.

Lascia un commento

More in Programming
Whatsup 0.1: tipologia dei dati e algoritmo di clustering

L'algoritmo di clustering che ho sviluppato è estremamente semplice ma riesce ad ottenere discreti risultati nonostante l'esiguità di dati. Il...

Close