Siamo all’alba dell’era del riuso dei dati.
Dopo aver parlato tempo fa di RDF, termini e schema standard, oggi vorrei parlare di identificatori.
L'input è arrivato da questo white paper, ben scritto da ODI e Thomson Reuters.
Rimando direttamente al documento per un approfondimento mentre provo a definire qui un'azione che dovremmo adottare fin da subito per aumentare le possibiltà di riuso dei dati (come? ne parliamo a #sod15 !? ).
L'azione è semplice:
(Ri)Usare identificatori Persistenti per le Risorse più importanti
Esempio:
In un csv che descrive i soldi spesi dai comuni usare, a fianco del nome del comune, inserire anche l'ID/URL di DBPedia e/o altri dataset presi come riferimento.
Perchè farlo?
* Perchè in questo modo è enormemente più semplice incrociare dataset diversi
* Perchè solo utilizzando più dataset e fonti di dati si possono costruire applicazioni con un alto valore
* Perchè in questo modo si internazionalizza il dato
Come si realizza?
A) Per una nuova applicazione che nasce ora e che (quindi) deve supportare pubblicazioni in open data, adottare internemante identificatori persistenti.
B) Per migliorare un dataset esistente si deve:
* Identificare lo standard di identificazione più adeguato per il tipo di risorse che dobbiamo descrivere
* Riconciliare le entità agli identificatori attraverso procedure semi-automatiche utilizzando strumenti esistenti come Openrefine.
E se non esiste API di riconciliazione per il nostro caso?
In questo caso lo si deve costruire, e lo può/deve fare per primo chi pubblica questi dati autoritari e per secondo la community.