Provenance dei dati di addestramento AI: come dimostrare l’autenticita’ dei dataset sotto l’AI Act

A partire dal 2 agosto 2026 l'AI Act richiedera' ai fornitori di modelli AI general-purpose una documentazione dettagliata sui dataset di addestramento. L'art. 53, paragrafo 1, lettera c, impone elenchi sintetici dei contenuti utilizzati e il rispetto del copyright; per i sistemi ad alto rischio, l'art. 10 estende l'obbligo a qualita', rilevanza e rappresentativita' dei dati. Per le imprese italiane ed europee che addestrano modelli proprietari, fine-tunano LLM open source o costruiscono pipeline RAG, il problema strategico e' tecnico prima che giuridico: come si dimostra, a un auditor o a un giudice, che un dato di training e' stato realmente acquisito da una fonte autorizzata, in una data certa, con quel preciso contenuto, e non e' stato modificato dopo l'ingestione?

La risposta non sta in un certificato emesso a fine percorso. Sta nel modo in cui ogni file, ogni payload, ogni record che entra nel dataset viene fissato al momento dell'ingestione. La provenance dei dati di addestramento e' la nuova superficie di rischio: chi non la presidia oggi, fra dodici mesi si trovera' nell'impossibilita' di rispondere a un audit, con sanzioni che possono arrivare al 3% del fatturato globale.

Questo approfondimento fa parte della guida: data integrity nell'era dell'AI e certificazione alla fonte

Cosa chiede l'AI Act sulla provenance dei dati di addestramento

L'AI Act distingue due regimi sulla documentazione dei dati di training. Per i modelli AI general-purpose (GPAI), l'art. 53, paragrafo 1, lettera c, richiede un riepilogo dettagliato dei contenuti usati per l'addestramento, secondo un template che la Commissione UE ha pubblicato a maggio 2026. Per i sistemi ad alto rischio (allegato III: HR, education, law enforcement, biometric ID, ecc.), l'art. 10 aggiunge obblighi piu' stringenti su qualita', rilevanza e assenza di bias dei dataset, con tracciabilita' dei criteri di selezione.

Riepilogo sintetico ex art. 53: cosa deve contenere

Il template ufficiale richiede l'elenco delle fonti per categoria (web pubblico, dataset commerciali, dati proprietari da clienti, dataset sintetici, fine-tuning su contenuti protetti da copyright), il volume per categoria, le date di acquisizione, le misure di rispetto del diritto d'autore. Il punto critico e' che l'audit dell'AI Office potra' chiedere, su un campione, la dimostrazione tecnica che quel record specifico e' stato acquisito quando dichiarato e non e' stato alterato successivamente. Senza una catena di custodia digitale, la risposta diventa fragile.

Sistemi ad alto rischio ex art. 10: il salto di livello

Per i sistemi ad alto rischio l'asticella si alza. Non basta dichiarare le fonti: bisogna dimostrare che ogni record passa attraverso un processo di valutazione documentato (qualita', rappresentativita', mitigazione del bias) e che la trasformazione dal dato grezzo al dato curato e' tracciabile. Il dataset di training diventa un artefatto regolatorio: ogni cambio, ogni eliminazione, ogni augmentation deve essere giustificabile a un'ispezione.

Implementazione tecnica della provenance: cosa serve davvero

L'esperienza dei progetti enterprise pilotati nel primo trimestre 2026 ha consolidato cinque elementi che una pipeline conforme deve garantire: hashing crittografico all'ingestione, marca temporale qualificata per ogni file e batch, catena di custodia digitale fra dato grezzo e dato curato, tracciabilita' end-to-end fra ingestione del dato e prediction del modello, registro di attestazione immutabile sui passaggi di trasformazione.

Hash crittografico all'ingestione

Ogni file che entra nel dataset deve essere identificato da un hash SHA-256 calcolato sul payload originale. Questo hash diventa il riferimento univoco di quel dato. Qualsiasi modifica posteriore al file produce un hash diverso, rendendo l'alterazione immediatamente verificabile. Il momento dell'ingestione e' quello critico: se l'hash viene calcolato dopo che il dato e' transitato in un sistema intermedio, la catena di custodia parte gia' compromessa.

Marca temporale qualificata e sigillo

Hash da solo non basta: serve anche un'ancoraggio temporale incontestabile. Una marca temporale qualificata eIDAS, erogata da un QTSP qualificato terzo, lega l'hash a un istante certo nel tempo. Il sigillo elettronico aggiunge il legame con l'identita' dell'organizzazione che ha acquisito il dato. La tripla hash + marca temporale + sigillo e' lo standard di facto per costruire prove digitali con valore legale in Europa.

Catena di custodia fra dato grezzo e dato curato

I dataset di training raramente vengono usati cosi' come acquisiti: subiscono pulizia, normalizzazione, augmentation, filtering. Ogni passaggio deve essere registrato come trasformazione, con un puntatore al dato di origine e un nuovo hash sul dato trasformato. Cosi' a fine pipeline e' possibile ricostruire ogni record curato fino al dato grezzo originario, dimostrando ogni step intermedio.

Come TrueScreen abilita la provenance dei dati di training

La sfida operativa per le imprese che addestrano AI non e' inventare un sistema di hashing e marca temporale: i mattoni crittografici esistono da anni. La sfida e' integrarli nei flussi di data ingestion senza ricostruire l'infrastruttura. TrueScreen certifica alla fonte file e payload di dati attraverso una API REST e SDK pronti per essere richiamati dentro le pipeline esistenti.

Integrazione nelle pipeline di ingestione

Una pipeline tipica di data ingestion (es. crawler che acquisisce contenuti web autorizzati, ETL che importa dati da clienti enterprise, processo che incorpora dataset commerciali) chiama l'API TrueScreen passando il payload e riceve in risposta hash SHA-256, marca temporale qualificata eIDAS, sigillo elettronico erogato da QTSP qualificato integrato, identificativo nel registro di attestazione. Il record che entra nel dataset di training porta con se' il proprio passaporto crittografico, verificabile in autonomia da chiunque.

Risposta a un audit AI Act in pochi minuti

Quando l'AI Office, un cliente enterprise o un giudice chiede dimostrazione che un record specifico e' stato acquisito quando dichiarato, il sistema interroga il registro di attestazione di TrueScreen e produce in pochi minuti la catena di custodia probatoria immutabile: il file e' stato acquisito alle 14:32:08 UTC del 12 marzo 2026, da quella fonte autorizzata, con quel preciso payload, e non e' stato alterato. Questo livello di prova soddisfa simultaneamente l'audit regolatorio e la difesa in giudizio in caso di contestazione su un singolo input.

FAQ: provenance dei dati di addestramento e AI Act

Qual e' l'obbligo dell'AI Act sulla documentazione dei dati di addestramento?
L'art. 53, paragrafo 1, lettera c richiede ai fornitori di modelli AI general-purpose un riepilogo sintetico dettagliato dei contenuti usati per l'addestramento, con elenchi per categoria e misure di rispetto del copyright. Per i sistemi ad alto rischio, l'art. 10 estende l'obbligo a qualita', rilevanza e rappresentativita' dei dati con tracciabilita' dei criteri di selezione. Scadenza GPAI: 2 agosto 2026.
Come si dimostra che un dato di training non e' stato alterato dopo l'ingestione?
Calcolando un hash SHA-256 sul payload originale al momento dell'ingestione, associando una marca temporale qualificata eIDAS erogata da un QTSP qualificato terzo, e applicando un sigillo elettronico che lega l'hash all'identita' dell'organizzazione. La tripla hash + marca temporale + sigillo costituisce una prova verificabile da chiunque che il dato non e' stato modificato dopo l'istante certificato.
La provenance e' richiesta anche per i dataset usati nel fine-tuning?
Si'. Il fine-tuning rientra nel perimetro dell'AI Act se il modello risultante e' general-purpose o ad alto rischio. Per ogni dataset usato nel fine-tuning, il fornitore deve documentare fonti, volumi, date di acquisizione e misure sul diritto d'autore. La catena di custodia diventa rilevante quando il fine-tuning incorpora contenuti coperti da copyright o dati proprietari di clienti enterprise.

Vuoi prepararti agli obblighi AI Act sulla provenance dei dati?

Integra TrueScreen nelle tue pipeline di data ingestion per ottenere hash, marca temporale qualificata eIDAS e sigillo elettronico su ogni record acquisito. Risposta a un audit in pochi minuti, catena di custodia probatoria immutabile.

applicazione mockup