Siamo all’alba dell’era degli open data.
Qualcosa inizia a muoversi e si iniziano ad intravedere dati interessanti all’orizzonte.
Come racconta Giuseppe Marini qui non sono però tutte rose e fiori.
Le problematiche principali identificate nell’articolo sono:
- formati dei file disparati
- denominazione dei campi con significato implicito
- contenuto dei campi con errori o difficilmente confrontabile
La prima cosa da fare è utilizzare un formato di dati comune.
Il candidato ideale è l’RDF in quanto:
- E’ sufficientemente generico, si possono esprimere in rdf i dati di qualunque complessit
- E’ possibile convertire in rdf qualsiasi tipo di dato (csv, xls..) piuttosto facilmente
- Ha diverse “serializzazioni” (xml, json, etc) in modo da poter usare quella che fa più comod
- E’ supportato dalla comunità open e quindi dai tool utilizzati per analizzare i dati
Per fare questo ci sono due strade:
- usare lo stesso formato e quindi gli stessi nomi dei campi
- usare formati diversi ma spiegando il significato dei campi
La seconda soluzione è meno comoda, sopratutto se si vuole che anchè un software possa “capire” il significato delle tabelle, ma.. rullo di tamburi... si.
può. fareeee!
Come? Usando le ontologie. Calma (già vedo le facce impaurite)
Le ontologie (nelle loro forme pù semplici) non sono altro che un elenco di campi standardizzati.
Prima di pubblicare i dati (o anche dopo (RAW DATA NOW)) si cercano ontologie esistenti per il dominio dei dati che si sta trattando.
Per quanto è possibile si cerca di utilizzare campi esistenti e solo nel caso non esistano se ne creano di nuovi cercando comunque di spiegarne il significato.
Spiegare il significato di nuovi termini in definitiva significa creare mapping tra i "propri" termini e altri standard
Una delle ontologie di base è ad esempio il “dublin core”. Questo definisce campi come “autore”, “titolo” etc..
Ogni campo ha un’indirizzo web al quale si puo accedere per avere informazioni quali: etichetta del campo in piu lingue -> è possibile confrontare dati “in lingue diverse” Campi correlati (ad esempio dice che autore è una specializzazione di contributor) -> si puo trattare l’autore come un contributor!!