Tracciabilità dei prompt: perché certificare le istruzioni agli agenti AI

Un terzo delle organizzazioni non ha alcun sistema di audit trail per i propri agenti AI (Kiteworks, 2026). Il mercato dell'agentic AI nel 2026 vale 9,14 miliardi di dollari (Fortune Business Insights). Gartner prevede agenti AI nel 40% delle applicazioni enterprise entro fine anno. Eppure un'organizzazione su tre non sa ricostruire quali istruzioni siano state date ai propri agenti, né quando, né da chi. La tracciabilità dei prompt non è più un tema rinviabile.

Gli agenti AI operano sulla base di istruzioni configurabili: system prompt, user prompt, parametri, configurazioni di tool. Quando l'agente commette un errore o prende una decisione contestata, le domande sono immediate. Chi ha dato quelle istruzioni? Quando? Con quale contenuto esatto? I log tecnici, modificabili da qualsiasi amministratore, non offrono risposte con valore probatorio. Come approfondito nella guida sulla certificazione dei dati per agenti AI, solo la certificazione con data certa e immutabilità alla fonte permette di distinguere un errore di configurazione da un difetto del modello e di attribuire responsabilità in modo legalmente valido.

Questo approfondimento fa parte della guida: Certificazione dei dati per agenti AI: governance, compliance e responsabilità legale

Cosa sono i prompt e perché devono essere tracciati

Anatomia di un'istruzione: system prompt, user prompt, configurazioni

Un agente AI riceve istruzioni da tre canali distinti. Il system prompt definisce il comportamento di base: ruolo, limiti operativi, regole di sicurezza. Lo user prompt contiene le richieste specifiche dell'operatore durante ogni sessione. Le configurazioni di tool stabiliscono quali strumenti l'agente può usare, con quali permessi e con quali soglie decisionali.

La differenza non è accademica. Un system prompt che imposta una tolleranza al rischio alta produce risultati radicalmente diversi da uno conservativo, anche con lo stesso modello e gli stessi dati di input. Chi configura questi parametri si assume una responsabilità operativa sulle decisioni dell'agente, che ne sia consapevole o meno.

Il problema dell'attribuzione: chi ha detto cosa all'agente?

Senza un record certificato delle istruzioni impartite, ogni contestazione su una decisione automatizzata si riduce alla parola di un operatore contro un log modificabile. Il gap è misurabile: gli attacchi di prompt injection sono cresciuti del 340% su base annua nel quarto trimestre 2025 (Wiz Research via SQ Magazine), e il 67% di essi non viene rilevato per oltre 72 ore. Il 60% degli incidenti legati alla data privacy nei sistemi AI deriva da manipolazione dei prompt (SQ Magazine). Chi ha modificato il system prompt? Quando? Il log applicativo dice una cosa, l'operatore ne ricorda un'altra. Come sintetizza un rapporto Reworked: senza record di provenienza chiari, la responsabilità ricade su chi "avrebbe dovuto sapere". E in azienda, chi "avrebbe dovuto sapere" ha quasi sempre un nome e un cognome. Il problema non è tecnico: è probatorio. I log modificabili non reggono in sede giudiziaria, e la tracciabilità dei prompt diventa il discrimine tra un'organizzazione che può difendersi e una che non può.

Obblighi normativi e responsabilità del deployer

AI Act Art. 26: gli obblighi di chi configura l'agente

Il regolamento europeo sull'intelligenza artificiale assegna al deployer obblighi precisi di tracciabilità e trasparenza. L'Art. 12 impone la registrazione automatica degli eventi (logging) per i sistemi ad alto rischio, con conservazione minima di sei mesi. L'Art. 26 richiede che il deployer conservi i log generati automaticamente, assicuri la supervisione umana e garantisca trasparenza nell'uso del sistema. In pratica, chi configura un agente AI con un system prompt è tenuto a dimostrare quali istruzioni erano attive in ogni momento, con quali parametri e sotto la responsabilità di quale operatore. Questo obbligo si estende a ogni modifica successiva: un prompt aggiornato senza registrazione è una violazione potenziale. Il punto critico è che il regolamento non impone esplicitamente il valore probatorio di quei log; la compliance formale non basta quando la prova finisce in tribunale.

I tribunali richiedono di più. La Product Liability Directive 2024/2853, applicabile dal 9 dicembre 2026, introduce la presunzione di difettosità quando la documentazione è assente o insufficiente. Il CAD (D.Lgs. 82/2005), agli Art. 20-24, stabilisce che solo i documenti con firma digitale e sigillo qualificato hanno pieno valore legale. Il regolamento eIDAS (Art. 42) conferisce alle marche temporali qualificate la presunzione di accuratezza della data. Chi si limita a conservare log applicativi senza queste garanzie si ritrova con documentazione formalmente presente ma inutilizzabile in tribunale. Gli obblighi di trasparenza dell'AI Act richiedono un livello di prova che il semplice logging tecnico non può offrire.

Prompt injection non tracciati: un rischio legale sottovalutato

Il 55% degli attacchi nel 2026 rientra nella categoria degli indirect prompt injection: manipolazioni multi-hop che transitano attraverso i tool collegati all'agente (SQ Magazine). CrowdStrike ha documentato attacchi contro oltre 90 organizzazioni nel solo 2026. La ricerca accademica (paper arXiv su Stage-Level Tracking of Prompt Injection) conferma che il tracciamento a livello di singolo stadio è necessario per identificare il punto esatto di compromissione.

La conseguenza legale è quella che le organizzazioni sottovalutano di più. Se un prompt injection altera le istruzioni dell'agente e quell'alterazione non è tracciata, il deployer non può dimostrare che l'errore deriva dall'attacco e non dalla propria configurazione. Come riporta Kiteworks, i guardrail a livello di modello non contano come controlli di conformità perché bypassabili. La OWASP Top 10 per LLM colloca il prompt injection al primo posto tra i rischi e sottolinea la necessità di meccanismi di tracciabilità indipendenti dal modello stesso. Senza una strategia strutturata di record-keeping, l'onere della prova resta interamente sul deployer.

Come si certifica un prompt con valore legale?

Certificazione con data certa, hash e immutabilità alla fonte

TrueScreen, the Data Authenticity Platform, certifica ogni prompt attraverso un processo che combina hash SHA-256, marca temporale qualificata eIDAS e sigillo digitale qualificato. Il processo cattura tre elementi in un unico record immutabile: il contenuto esatto del prompt (system prompt, user prompt o configurazione di tool), il momento preciso dell'invio con accuratezza al secondo e l'identità certificata del mittente. Se il prompt venisse modificato anche di un singolo carattere dopo la certificazione, l'hash non corrisponderebbe più. Questo è il Livello 2 del framework a quattro livelli descritto nella guida sulla governance e compliance per la certificazione dei dati AI: dopo la knowledge base certificata (Livello 1), i prompt sono il secondo livello, seguito dalle operazioni e dagli output certificati (Livello 4). L'integrazione avviene tramite REST API e protocollo MCP: la certificazione è automatica, in tempo reale, compatibile con qualsiasi framework operativo.

La differenza tra un log applicativo e una certificazione con valore legale è sostanziale:

Caratteristica	Log applicativo	Certificazione forense
Modificabilita'	Si (admin può editare)	No (hash immutabile)
Data certa	Timestamp server (manipolabile)	Marca temporale qualificata eIDAS
Valore probatorio	Limitato	Pieno (eIDAS, Reg. 910/2014)
Attribuzione	IP/username (falsificabile)	Identita' certificata + sigillo digitale
Automazione	Varia	API in tempo reale

Scenario: più operatori, stesso agente, decisione contestata

Esempio concreto. Un istituto finanziario usa un agente AI per il credit scoring. Tre operatori configurano lo stesso agente con system prompt diversi: soglie di tolleranza al rischio differenti, criteri di valutazione personalizzati, parametri di accettazione specifici per segmento di clientela. Un cliente contesta il rifiuto della propria richiesta di credito.

Con i log applicativi tradizionali, ricostruire la catena decisionale è quasi impossibile. Quale operatore ha configurato l'agente al momento della valutazione? Il system prompt attivo era quello con soglie conservative o quello più permissivo? Qualcuno ha modificato il log dopo il fatto? Domande senza risposta certa.

Con la certificazione TrueScreen, ogni modifica al system prompt viene registrata con hash immutabile, marca temporale qualificata e identità dell'operatore. L'istituto può dimostrare quale configurazione era attiva al momento esatto della decisione e distinguere con certezza tra un errore di configurazione umana e un comportamento anomalo del modello. Le organizzazioni usano TrueScreen per creare record immutabili delle istruzioni impartite ai propri agenti AI, e la digital provenance diventa prova concreta anziché concetto astratto.

FAQ: domande frequenti sulla tracciabilità dei prompt AI

Come si certificano i prompt di un agente AI?

Si applica un hash crittografico SHA-256, una marca temporale qualificata e un sigillo digitale a ogni istruzione impartita all'agente. Tramite API TrueScreen il processo è automatico e avviene in tempo reale, senza intervento manuale. Il risultato è un record immutabile che lega contenuto, momento e identità del mittente.

Il deployer è responsabile del system prompt?

Sì. L'Art. 26 dell'AI Act assegna al deployer l'obbligo di conservare log, garantire supervisione umana e assicurare trasparenza. Dal 2026, la Product Liability Directive 2024/2853 amplifica questa responsabilità: se la documentazione manca, la difettosità si presume.

Cosa succede se un prompt viene modificato senza traccia?

Si apre un gap probatorio. Dimostrare quali fossero le istruzioni originali diventa impossibile, così come contestare eventuali alterazioni o attribuire responsabilità. Il rischio legale, senza certificazione, ricade interamente sul deployer.

Prompt injection e responsabilità legale: chi risponde?

Se un attacco di prompt injection non è tracciato con certificazione forense, il deployer non può dimostrare che l'errore è stato causato dall'attacco e non dalla propria configurazione. La certificazione dei prompt inverte l'onere della prova: documenta lo stato delle istruzioni prima e dopo l'eventuale compromissione.

Qual è la differenza tra errore di configurazione e difetto del modello?

L'errore di configurazione deriva da istruzioni sbagliate impartite dal deployer. Il difetto del modello è un comportamento errato del sistema AI nonostante istruzioni corrette. Senza certificazione dei prompt, distinguere tra i due è impossibile. Ed è proprio questa distinzione a determinare su chi ricade la responsabilità.

Certifica i dati dei tuoi agenti AI

TrueScreen certifica ogni istruzione, operazione e output dei tuoi agenti AI con valore legale. Inizia a proteggere la tua organizzazione.

Inizia ora

Richiedi una demo