Data provenance vs data lineage: differenze, standard e perche’ servono entrambi per la governance dei dati

Chi lavora con i dati conosce la scena: due colleghi discutono di "tracciabilita' del dato" e usano due parole diverse, data provenance e data lineage, convinti di parlare della stessa cosa. Non e' cosi'. La data lineage descrive il percorso che un dato compie attraverso i sistemi, mentre la data provenance certifica la sua origine e la sua autenticita' nel momento in cui nasce. La differenza sembra sottile, ma diventa enorme quando il dato che state tracciando potrebbe essere falso. Una data lineage perfetta puo' documentare con precisione millimetrica il viaggio di un'informazione fabbricata da un modello di machine learning o manipolata a monte. In questo approfondimento mettiamo a confronto data provenance vs data lineage, vediamo quali standard le regolano e perche' una governance dei dati seria ha bisogno di entrambe.

La tesi e' semplice: non scegliete tra le due. La data lineage risponde alla domanda "dove e' passato questo dato?", la data provenance risponde a quella molto piu' scomoda "questo dato e' davvero quello che dice di essere?". Senza la seconda, la prima costruisce una catena di custodia attorno a un'informazione di cui nessuno ha mai verificato la genuinita' alla fonte.

Questo approfondimento fa parte della guida: Provenienza digitale

Cosa traccia la data lineage: il percorso del dato

La data lineage mappa il ciclo di vita di un dato: da dove arriva, attraverso quali sistemi transita, quali trasformazioni subisce e dove finisce. E' la cartografia del movimento. Quando un valore entra in un data warehouse, viene aggregato in una pipeline, alimenta un report e poi un modello predittivo, la lineage tiene memoria di ogni passaggio e di ogni dipendenza.

Il valore operativo e' concreto. Quando un numero in un cruscotto direzionale appare sbagliato, la lineage permette al data engineer di risalire la catena delle trasformazioni e isolare il punto esatto in cui qualcosa si e' rotto, senza scavare a mano in decine di sistemi. Serve anche per l'impact analysis: prima di modificare una tabella sorgente, si vede in anticipo quali report e quali modelli a valle ne risentiranno. Secondo l'impianto del DAMA DMBOK, il quadro di riferimento piu' diffuso per la gestione dei dati, la lineage e' parte integrante della disciplina dei metadati, quella che attribuisce significato condiviso e contesto aziendale a ogni elemento informativo.

C'e' un limite preciso, pero', e conviene nominarlo subito. La lineage traccia fedelmente cosa e' successo al dato dopo che e' entrato nel perimetro dei sistemi. Su cosa fosse il dato prima, su chi o cosa lo abbia generato e se quel primo valore corrisponda alla realta', la lineage non ha nulla da dire. Documenta il viaggio, non la nascita.

Cosa certifica la data provenance: l'origine e l'autenticita' alla fonte

La data provenance lavora esattamente dove la lineage si ferma: all'origine. Risponde a chi o cosa ha creato il dato, in quale momento, in quali condizioni, e soprattutto attesta che da quel primo istante il dato non e' stato alterato. Non e' una mappa del percorso, e' un atto di nascita verificabile.

La distinzione che molti professionisti dei dati confondono e' proprio questa. La data lineage e' cieca sull'origine: assume per buono il valore di partenza e si limita a seguirlo. Se quel valore di partenza e' una fotografia ritoccata, una transazione inventata o l'output di un sistema generativo spacciato per misura reale, la lineage lo trattera' con lo stesso rigore di un dato genuino. Costruira' attorno a un falso una documentazione impeccabile. Ed e' qui che la posta in gioco si alza: in un contesto in cui i contenuti sintetici sono ovunque, una catena di custodia perfetta su un dato fasullo non e' una garanzia, e' una trappola.

La provenance ribalta l'approccio. Invece di inseguire il dato a valle sperando che a monte fosse autentico, certifica l'autenticita' nel punto in cui il dato si forma. Il principio e' garantire il vero alla sorgente, non tentare di smascherare il falso dopo, una corsa che con il machine learning generativo si fa ogni anno piu' difficile da vincere. Per questo la provenance e' la base della provenienza digitale del dato: prima ancora di sapere dove un'informazione e' passata, serve sapere che era vera quando e' nata.

Perche' servono entrambe: governance completa e il ruolo di TrueScreen

Una governance dei dati completa tiene insieme le due discipline perche' rispondono a domande diverse e non sostituibili. La provenance stabilisce che il dato e' autentico fin dall'origine, la lineage dimostra cosa gli e' successo dopo. Tolta la provenance, vi resta una catena di custodia rigorosa attorno a un possibile falso. Tolta la lineage, sapete che il dato era vero alla nascita ma perdete la tracciabilita' delle trasformazioni successive. Insieme coprono l'intero arco di vita: autentico all'inizio, e tracciabile per tutto il resto.

E' il punto in cui si inserisce TrueScreen. La piattaforma fornisce la data provenance certificando il dato alla fonte: acquisisce il contenuto con metodologia forense nel momento in cui viene creato, ne verifica integrita' e autenticita', e lo certifica con valore legale. Per dare al dato un ancoraggio temporale e di integrita' opponibile a terzi, TrueScreen integra via API il sigillo elettronico qualificato eIDAS e la marca temporale qualificata RFC 3161 erogati da un QTSP terzo. TrueScreen certifica l'origine del dato integrando il sigillo qualificato di un QTSP terzo, non lo emette in proprio: il valore aggiunto sta nell'acquisizione forense alla fonte e nella certificazione dell'autenticita', mentre la componente di fiducia qualificata arriva dal QTSP integrato.

Le due discipline restano complementari e non concorrenti. TrueScreen presidia l'origine, i sistemi di data lineage tracciano il percorso a valle. Un dato certificato alla nascita da TrueScreen entra nella pipeline gia' munito di una prova di autenticita' verificabile, e da li' in poi la lineage ne segue ogni trasformazione con la certezza che il punto di partenza non era un'illusione ben documentata. E' anche cio' che chiedono gli standard. Il DAMA DMBOK colloca provenance e lineage entrambe dentro la gestione dei metadati e della qualita'; la ISO 8000, lo standard internazionale per la qualita' dei dati e dei master data, spinge sulla disciplina del dato autentico e affidabile. Sul fronte regolatorio l'EU AI Act, all'Articolo 10, impone ai sistemi di AI ad alto rischio di mantenere documentazione su provenienza e versioni dei dataset, in modo da poter risalire da una decisione al modello, dalle versioni del modello ai dataset e infine alla lineage delle fonti. L'applicazione di questi obblighi parte dal 2 agosto 2026, con sanzioni fino a 35 milioni di euro o il 6% del fatturato globale.

AspettoData provenanceData lineage
Domanda a cui rispondeIl dato e' autentico? Chi o cosa lo ha creato?Dove e' passato il dato? Quali trasformazioni ha subito?
MomentoL'origine, l'istante della creazioneIl percorso, dopo la creazione
Cosa garantisceAutenticita' e integrita' alla fonte, con valore legaleTracciabilita' di sistemi, passaggi e dipendenze
RiferimentiDAMA DMBOK, ISO 8000, EU AI Act Art. 10, sigillo eIDAS, marca temporale RFC 3161DAMA DMBOK (gestione metadati), EU AI Act Art. 10 (versioni dataset)

La domanda giusta non e' "provenance o lineage", ma "in che punto della mia architettura ho bisogno dell'una e in che punto dell'altra". Risposta breve: la provenance dove il dato nasce, la lineage lungo tutto cio' che viene dopo.

FAQ: Data provenance e data lineage

Data provenance e data lineage sono la stessa cosa?
No. La data lineage traccia il percorso del dato attraverso i sistemi e le sue trasformazioni dopo la creazione. La data provenance certifica l'origine e l'autenticita' del dato nel momento in cui nasce. Una documenta il viaggio, l'altra l'atto di nascita.
La data lineage prova l'autenticita' del dato?
No. La lineage assume per buono il valore di partenza e si limita a seguirlo. Se quel dato e' falso o manipolato a monte, la lineage costruira' comunque una catena di custodia impeccabile attorno a un'informazione non autentica. L'autenticita' alla fonte e' compito della data provenance.
Quali standard regolano la governance dei dati?
I riferimenti principali sono il DAMA DMBOK, quadro per la gestione dei dati che colloca provenance e lineage nella disciplina dei metadati, e la ISO 8000, standard internazionale per la qualita' dei dati e dei master data. Sul piano normativo, l'Articolo 10 dell'EU AI Act impone tracciabilita' e provenienza dei dataset per i sistemi di AI ad alto rischio.
Come si integra la data provenance in una pipeline esistente?
Certificando il dato alla fonte, prima che entri nei sistemi a valle. TrueScreen acquisisce e certifica il contenuto con valore legale al momento della creazione, integrando via API il sigillo qualificato eIDAS e la marca temporale RFC 3161 di un QTSP terzo. Da quel punto in poi, i sistemi di data lineage tracciano le trasformazioni con la certezza che l'origine era autentica.

Certifica i tuoi dati alla fonte, con valore legale

TrueScreen acquisisce e certifica i dati alla fonte con valore legale, integrando il sigillo qualificato e la marca temporale di un QTSP terzo via API.

applicazione mockup