Servizio

Acquisizione, pulizia e validazione dei dati

Supportiamo attività di reperimento di fonti, raccolta di dati, documenti o immagini, pulizia, controllo qualità, normalizzazione e preparazione di basi informative affidabili e riutilizzabili.

Service

Data acquisition, cleansing and validation

We support source sourcing, collection of data, documents or imagery, cleansing, quality control, normalisation and preparation of reliable and reusable information bases.

Illustrazione del servizio di data cleansing: da dati eterogenei e disordinati a una tabella pulita e pronta all’usoIllustration of the data cleansing service: from heterogeneous, messy data to a clean table ready for use

Cosa possiamo offrire

Il servizio copre le fasi iniziali e più delicate del lavoro sui dati: reperimento delle fonti, pulizia, standardizzazione, verifica di qualità e preparazione di strutture utilizzabili da analisti, applicazioni o sistemi di reporting.

Attività principali

  • Ricerca e raccolta di dati, documenti e immagini
  • Pulizia e normalizzazione di archivi tabellari
  • Controlli di qualità, completezza e coerenza
  • Riduzione del rumore informativo e selezione dei campi utili
  • Preparazione di dataset per analisi, geocodifica o visualizzazione

Output possibili

  • Dataset puliti e documentati
  • Archivi normalizzati e pronti per fasi successive
  • Tabelle di controllo e validazione
  • Strutture dati alleggerite per elaborazioni più rapide
  • Dataset intermedi per geocodifica, mapping o reportistica

What we can offer

This service covers the initial and most delicate phases of data work: source sourcing, cleansing, standardisation, quality verification and preparation of structures usable by analysts, applications or reporting systems.

Main activities

  • Research and collection of data, documents and imagery
  • Cleansing and normalisation of tabular archives
  • Quality, completeness and consistency checks
  • Reduction of informational noise and selection of useful fields
  • Preparation of datasets for analysis, geocoding or visualisation

Possible outputs

  • Clean and documented datasets
  • Normalised archives ready for later phases
  • Validation and control tables
  • Lightweight structures for faster processing
  • Intermediate datasets for geocoding, mapping or reporting

Esempi di attività

Le esperienze maturate comprendono validazione e armonizzazione di classificazioni territoriali, ricerca di nuove fonti dati per statistiche ufficiali e preparazione di grandi basi informative per analisi territoriali e socio-demografiche.

Acquisizione di fonti

Ricerca e confronto tra fonti amministrative, dataset statistici, immagini satellitari, segnali AIS, webcam e altre basi informative, da utilizzare in analisi ufficiali o strumenti di consultazione.

Normalizzazione e controllo

Preparazione di archivi da integrare con altre fonti, verifica della coerenza delle variabili, uniformazione di nomi, codici e strutture, definizione di criteri replicabili nel tempo.

Activity examples

Past experience includes validation and harmonisation of territorial classifications, search for new data sources for official statistics and preparation of large information bases for territorial and socio-demographic analysis.

Source acquisition

Research and comparison between administrative sources, statistical datasets, satellite imagery, AIS signals, webcams and other information bases to be used in official analyses or consultation tools.

Normalisation and control

Preparation of archives to be integrated with other sources, consistency checks on variables, standardisation of names, codes and structures, and definition of criteria that remain replicable over time.

Esempio: OpenRefine per normalizzazione e geocodifica

Un esempio concreto riguarda il trattamento dei luoghi di nascita nei dati sui permessi di soggiorno, con normalizzazione, geocodifica e analisi delle reti migratorie.

Esempio

Dati migratori, OpenRefine e geocodifica

I luoghi di nascita erano registrati in un campo alfanumerico non obbligatorio, non standardizzato e spesso incompleto. Il primo passaggio è stato la correzione automatica del dataset con OpenRefine.

Successivamente i nomi sono stati standardizzati collegandoli a GeoNames, usando anche il portale INSPIRE come motore di ricerca, e infine geocodificati con longitudine e latitudine.

Per evitare differenze di normalizzazione tra anni diversi, le quattro annualità sono state unite in una tabella unica. Le informazioni non interessanti o sensibili sono state eliminate per velocizzare il lavoro in OpenRefine.

La geocodifica è stata eseguita direttamente in OpenRefine; per superare i limiti del web service GeoNames, il processo è stato spostato da tabella completa a una pivot dei toponimi, riducendo drasticamente la dimensione senza perdere qualità.

Infografica sul workflow di normalizzazione e geocodifica dei luoghi di nascita con OpenRefine e GeoNames
Infografica di sintesi del workflow: dalla normalizzazione dei toponimi con OpenRefine alla geocodifica con GeoNames, fino alla costruzione di insight su reti e catene migratorie.

Risultati

Nel rapporto si osserva che per 12 paesi su 20 il tasso di record normalizzati e geocodificati supera il 95%. Restano più critici alcuni casi, soprattutto per via di traslitterazioni in cirillico, nomi abbreviati di province o piccoli villaggi non presenti in GeoNames.

Example: OpenRefine for normalisation and geocoding

A concrete example concerns the treatment of birthplaces in residence permit data, combining normalisation, geocoding and migration network analysis.

Example

Migration data, OpenRefine and geocoding

Birthplaces were stored in a non-mandatory alphanumeric field that was not standardised and often incomplete. The first step was automatic correction of the dataset using OpenRefine.

Names were then standardised by linking them to GeoNames, also using the INSPIRE portal as a search engine, and finally geocoded by adding longitude and latitude.

To avoid year-to-year normalisation differences, the four yearly releases were merged into a unique table. Non-interesting or sensitive information was removed in order to make OpenRefine processing faster.

Geocoding was performed directly inside OpenRefine; to cope with GeoNames service limits, the process was moved from the full table to a pivot table of placenames, dramatically reducing the size without affecting quality.

Infographic about the workflow for normalising and geocoding birthplaces with OpenRefine and GeoNames
Summary infographic of the workflow: from placename normalisation with OpenRefine to geocoding with GeoNames, leading to migration network insights and subnational analysis.

Results

The report notes that for 12 countries out of 20 the rate of normalised and geocoded records is above 95%. Some cases remained more difficult, mainly because of Cyrillic transliterations, abbreviated province names or very small villages not included in GeoNames.