Excel: normalizzare gli elenchi di Excel con Google Refine

Partendo da un buon elenco, in Excel puoi analizzarlo, filtrarlo, riassumerlo con una tabella pivot e più in generale puoi estrarre informazioni dai dati in modo molto semplice, veloce e senza dover fare formule complesse.

E quindi alla fine il problema che hanno tutti coloro che usano Excel per fare analisi dati è sempre quello: normalizzare le tabelle di origine e ripulirle di tutti gli errori, imprecisioni, doppioni e problemi vari. Vale anche qui il classico principio garbage in garbage out, ovvero per avare informazioni buone occorre partire da dati buoni.

Esempio: nel campo “Nazione” troviamo a volte “GB”, a volte “Inghilterra”, a volte “Gran Bretagna”. Oppure: nella colonna “Percentuale” a volte troviamo “0,5″ e a volte “50″.

Ripulire le tabelle sporche è un lavoraccio ingrato e il più delle volte manuale. Una volta ho visto con i miei occhi (terrorizzati), in una società di cui non dirò il nome, che il controllo delle estrazioni dati da SAP verso Excel veniva fatto confrontando a mano su due schermi che proiettavano uno  l’originale SAP e l’altro la copia in Excel. Livelli di stress alle stelle!

Nei casi più spinosi io ho trovato molto utile Google Refine, uno strumento rilasciato quest’anno che permette di effettuare trasformazioni automatiche su grosse moli di dati.

Google Refine è in grado di importare dati in qualsiasi formato, come TXT, CSV, XML, XLS e XLSX, JSON e Google Spreadsheets, e direttamente dal web; esporta invece verso CSV, Excel e tabelle HTML.

Google Refine va scaricato e installato, nelle versioni per Windows, Mac OSX e Linux. Una volta installata, l’applicazione gira come server ed è raggiungibile puntando il proprio browser al localhost http://127.0.0.1:3333/.

Per cominciare a usare Google Refine, il primo passo è senz’altro guardarsi questo video.

Share