Acquisizione, pulizia e validazione dei dati
Supportiamo attività di reperimento di fonti, raccolta di dati, documenti o immagini, pulizia, controllo qualità, normalizzazione e preparazione di basi informative affidabili e riutilizzabili.
Data acquisition, cleansing and validation
We support source sourcing, collection of data, documents or imagery, cleansing, quality control, normalisation and preparation of reliable and reusable information bases.


Cosa possiamo offrire
Il servizio copre le fasi iniziali e più delicate del lavoro sui dati: reperimento delle fonti, pulizia, standardizzazione, verifica di qualità e preparazione di strutture utilizzabili da analisti, applicazioni o sistemi di reporting.
Attività principali
- Ricerca e raccolta di dati, documenti e immagini
- Pulizia e normalizzazione di archivi tabellari
- Controlli di qualità, completezza e coerenza
- Riduzione del rumore informativo e selezione dei campi utili
- Preparazione di dataset per analisi, geocodifica o visualizzazione
Output possibili
- Dataset puliti e documentati
- Archivi normalizzati e pronti per fasi successive
- Tabelle di controllo e validazione
- Strutture dati alleggerite per elaborazioni più rapide
- Dataset intermedi per geocodifica, mapping o reportistica
What we can offer
This service covers the initial and most delicate phases of data work: source sourcing, cleansing, standardisation, quality verification and preparation of structures usable by analysts, applications or reporting systems.
Main activities
- Research and collection of data, documents and imagery
- Cleansing and normalisation of tabular archives
- Quality, completeness and consistency checks
- Reduction of informational noise and selection of useful fields
- Preparation of datasets for analysis, geocoding or visualisation
Possible outputs
- Clean and documented datasets
- Normalised archives ready for later phases
- Validation and control tables
- Lightweight structures for faster processing
- Intermediate datasets for geocoding, mapping or reporting
Esempi di attività
Le esperienze maturate comprendono validazione e armonizzazione di classificazioni territoriali, ricerca di nuove fonti dati per statistiche ufficiali e preparazione di grandi basi informative per analisi territoriali e socio-demografiche.
Acquisizione di fonti
Ricerca e confronto tra fonti amministrative, dataset statistici, immagini satellitari, segnali AIS, webcam e altre basi informative, da utilizzare in analisi ufficiali o strumenti di consultazione.
Normalizzazione e controllo
Preparazione di archivi da integrare con altre fonti, verifica della coerenza delle variabili, uniformazione di nomi, codici e strutture, definizione di criteri replicabili nel tempo.
Activity examples
Past experience includes validation and harmonisation of territorial classifications, search for new data sources for official statistics and preparation of large information bases for territorial and socio-demographic analysis.
Source acquisition
Research and comparison between administrative sources, statistical datasets, satellite imagery, AIS signals, webcams and other information bases to be used in official analyses or consultation tools.
Normalisation and control
Preparation of archives to be integrated with other sources, consistency checks on variables, standardisation of names, codes and structures, and definition of criteria that remain replicable over time.
Esempio: OpenRefine per normalizzazione e geocodifica
Un esempio concreto riguarda il trattamento dei luoghi di nascita nei dati sui permessi di soggiorno, con normalizzazione, geocodifica e analisi delle reti migratorie.
Dati migratori, OpenRefine e geocodifica
I luoghi di nascita erano registrati in un campo alfanumerico non obbligatorio, non standardizzato e spesso incompleto. Il primo passaggio è stato la correzione automatica del dataset con OpenRefine.
Successivamente i nomi sono stati standardizzati collegandoli a GeoNames, usando anche il portale INSPIRE come motore di ricerca, e infine geocodificati con longitudine e latitudine.
Per evitare differenze di normalizzazione tra anni diversi, le quattro annualità sono state unite in una tabella unica. Le informazioni non interessanti o sensibili sono state eliminate per velocizzare il lavoro in OpenRefine.
La geocodifica è stata eseguita direttamente in OpenRefine; per superare i limiti del web service GeoNames, il processo è stato spostato da tabella completa a una pivot dei toponimi, riducendo drasticamente la dimensione senza perdere qualità.

Risultati
Nel rapporto si osserva che per 12 paesi su 20 il tasso di record normalizzati e geocodificati supera il 95%. Restano più critici alcuni casi, soprattutto per via di traslitterazioni in cirillico, nomi abbreviati di province o piccoli villaggi non presenti in GeoNames.
Example: OpenRefine for normalisation and geocoding
A concrete example concerns the treatment of birthplaces in residence permit data, combining normalisation, geocoding and migration network analysis.
Migration data, OpenRefine and geocoding
Birthplaces were stored in a non-mandatory alphanumeric field that was not standardised and often incomplete. The first step was automatic correction of the dataset using OpenRefine.
Names were then standardised by linking them to GeoNames, also using the INSPIRE portal as a search engine, and finally geocoded by adding longitude and latitude.
To avoid year-to-year normalisation differences, the four yearly releases were merged into a unique table. Non-interesting or sensitive information was removed in order to make OpenRefine processing faster.
Geocoding was performed directly inside OpenRefine; to cope with GeoNames service limits, the process was moved from the full table to a pivot table of placenames, dramatically reducing the size without affecting quality.

Results
The report notes that for 12 countries out of 20 the rate of normalised and geocoded records is above 95%. Some cases remained more difficult, mainly because of Cyrillic transliterations, abbreviated province names or very small villages not included in GeoNames.