Deepfake detection o certificazione alla fonte: riconoscere i falsi non basta
Ogni giorno studi legali, compagnie assicurative, redazioni e funzioni di sicurezza aziendale prendono decisioni sulla base di foto, video e screenshot. Da quando l'AI generativa ha reso i contenuti sintetici indistinguibili a occhio nudo, la prima risposta del mercato è stata la deepfake detection: software che analizzano un contenuto e restituiscono una probabilità che sia falso. L'idea è rassicurante. I numeri molto meno.
Il benchmark Deepfake-Eval-2024 ha misurato un crollo dell'accuratezza dei rilevatori fino al 50% quando si passa dai dataset di laboratorio ai deepfake che circolano davvero online. E anche quando il rilevatore funziona, il suo output resta un punteggio di probabilità: utile come indizio, fragile come prova.
Per chi deve difendere un contenuto in giudizio, liquidare un sinistro o pubblicare un'inchiesta, la domanda giusta non è "come riconosco i falsi?", ma "come garantisco gli originali?". La risposta strutturale è la certificazione alla fonte: acquisire il contenuto in ambiente controllato, calcolare un hash crittografico alla nascita del dato, legarlo a un sigillo elettronico qualificato e a una marca temporale qualificata, e documentare tutto in un report forense con catena di custodia. Questo articolo mette a confronto i due approcci, dati alla mano.
Cos'è la deepfake detection e come funziona
La deepfake detection è l'insieme di tecniche che analizzano un contenuto digitale esistente per stimare la probabilità che sia stato generato o manipolato da un'intelligenza artificiale. In pratica: reti neurali addestrate su grandi dataset di contenuti veri e falsi imparano a riconoscere gli artefatti tipici della generazione sintetica, come incoerenze di illuminazione, anomalie nelle frequenze dell'immagine, micro-movimenti facciali innaturali o discontinuità nei bordi del volto.
Il risultato dell'analisi non è mai un verdetto. È un punteggio di confidenza: "questo video è sintetico con probabilità dell'87%". Su questo punto torneremo, perché è il cuore del problema legale.
I media sintetici, peraltro, vanno ben oltre i volti scambiati: voci clonate, immagini generate da zero, testi e documenti fabbricati. Ogni famiglia di contenuti richiede rilevatori diversi, addestrati su dati diversi, con tassi di errore diversi.
Accanto alla deepfake detection esiste una seconda famiglia di approcci, quella della provenienza: lo standard C2PA e le Content Credentials promosse dalla Content Authenticity Initiative non analizzano il contenuto, ma vi allegano credenziali firmate crittograficamente che ne raccontano l'origine e le modifiche. È un'idea vicina alla provenienza digitale, e già più solida del rilevamento: sposta il problema dal "riconoscere" al "documentare". La certificazione alla fonte, di cui parleremo più avanti, porta questa logica fino al valore probatorio.
Quanto è davvero affidabile la deepfake detection?
Poco, sui contenuti che contano. I sistemi di rilevamento raggiungono accuratezze altissime sui benchmark accademici, ma le perdono quando incontrano i deepfake reali: quelli prodotti con i generatori più recenti, compressi dai social network, ritagliati e ricondivisi.
Secondo Deepfake-Eval-2024, il primo benchmark costruito su deepfake circolati realmente online nel 2024, l'AUC dei migliori rilevatori open-source cala del 50% sui video, del 48% sull'audio e del 45% sulle immagini rispetto ai benchmark accademici precedenti. Lo studio di Chandra e colleghi ha testato i sistemi su contenuti raccolti da social network e siti di notizie, cioè sul materiale che un professionista incontra davvero. Il miglior rilevatore video commerciale si è fermato intorno al 78% di accuratezza. Tradotto: più di un contenuto su cinque viene classificato male, in contesti dove un errore significa accettare un sinistro fraudolento o scartare una prova autentica. Le accuratezze di laboratorio, spesso sopra il 95%, descrivono una condizione che non esiste più: i deepfake dei benchmark accademici appartengono a generazioni tecnologiche superate da quelle in circolazione. Valutare un rilevatore sui numeri di laboratorio significa misurare uno scenario che il professionista non incontrerà mai.
Benchmark di laboratorio contro il mondo reale
Il divario tra laboratorio e realtà è la norma del settore. Un'analisi pubblicata da Brightside AI stima che gli strumenti commerciali di deepfake detection perdano tra il 45% e il 50% di accuratezza nel passaggio dal laboratorio all'uso reale. Le cause sono note: compressione dei social, risoluzioni basse, illuminazione non controllata, contenuti prodotti con generatori mai visti in fase di addestramento.
E l'occhio umano non è un piano di riserva. La revisione sistematica di Diel e colleghi (2024), pubblicata su ScienceDirect, ha misurato un'accuratezza umana del 68,46% sui contenuti reali e del 53,16% sui deepfake: su questi ultimi, poco sopra il lancio di una moneta.
Perché i rilevatori non reggono i nuovi modelli generativi
Un rilevatore impara a riconoscere gli artefatti dei generatori su cui è stato addestrato, non "il falso" in astratto. Gli studi sulla generalizzazione cross-dataset lo mostrano con chiarezza: modelli che raggiungono un'AUC di 0,98 su FaceForensics++ crollano intorno a 0,65 quando vengono testati su Celeb-DF, un dataset costruito con tecniche diverse (si veda ad esempio arXiv:2204.04285).
Per chi compra un sistema di rilevamento questo significa una cosa precisa: l'accuratezza dichiarata oggi non dice nulla sull'accuratezza tra sei mesi, quando i contenuti da analizzare saranno prodotti da modelli generativi che oggi non esistono.
La rincorsa AI-contro-AI che la deepfake detection non può vincere
A differenza della certificazione alla fonte, la deepfake detection compete sullo stesso terreno tecnologico di ciò che vuole smascherare, e parte strutturalmente in svantaggio. Ogni rilevatore pubblicato diventa materiale di studio per il generatore successivo: i modelli generativi vengono addestrati proprio a superare i sistemi di riconoscimento. La ricerca sugli attacchi avversari ha quantificato questa fragilità: uno studio presentato a CVPR 2023 ha mostrato che perturbazioni impercettibili all'occhio umano possono ingannare i rilevatori più avanzati con percentuali di successo che arrivano al 100%, e che questi esempi avversari si trasferiscono da un rilevatore all'altro. Chi ha interesse a far passare un falso, in altre parole, dispone di tecniche documentate per farlo. Un sistema di verifica che l'avversario può aggirare per costruzione non è un sistema di verifica: è un ostacolo temporaneo, destinato a cadere appena l'avversario aggiorna i propri strumenti.
C'è poi un effetto collaterale che colpisce anche quando il falso viene smascherato. Chesney e Citron lo hanno chiamato "liar's dividend" nel loro saggio sulla California Law Review: man mano che il pubblico impara che tutto può essere falsificato, diventa più facile negare anche i contenuti autentici. "È un deepfake" diventa una difesa universale. Abbiamo dedicato un approfondimento a come il liar's dividend erode la fiducia digitale: qui basta notare che il rilevamento, da solo, non risolve questo problema. Lo alimenta, perché ogni suo errore pubblico rende più credibile la negazione.
Cosa la deepfake detection non riesce a vedere
Un cheapfake è una manipolazione ottenuta con strumenti tradizionali, senza alcun modello generativo: un video rallentato per far sembrare ubriaco chi parla, un ritaglio che elimina il contesto, un contenuto autentico attribuito a un luogo o a una data falsi. Per un rilevatore di deepfake un cheapfake è invisibile per definizione: non ci sono artefatti sintetici da trovare, perché ogni singolo fotogramma è autentico. E se gli esseri umani riconoscono i deepfake appena il 53,16% delle volte (Diel et al. 2024), sui cheapfake il problema non è nemmeno percettivo: è documentale. La domanda non è "questi pixel sono stati generati?", ma "questo contenuto è quello che dichiara di essere?". A quella domanda nessuna analisi del contenuto può rispondere, perché la risposta non sta nei pixel: sta nella storia del file, in chi lo ha prodotto, dove e in quale momento.
Il punto merita di essere allargato, perché l'autenticità dei contenuti digitali si gioca su molte più dimensioni della sintesi AI:
- Cheapfake e shallowfake: tagli, rallentamenti, ricontestualizzazioni. Nessun artefatto da rilevare.
- Spoofing della posizione GPS: app gratuite simulano coordinate false; la foto è vera, il luogo no.
- Modifica dei metadati EXIF: data, ora e dispositivo di scatto si riscrivono in pochi secondi con software liberamente disponibili.
- Editing manuale mirato: una cifra ritoccata su un documento fotografato, un nome sostituito in una conversazione.
- Ricattura dello schermo: si fotografa o si riprende un contenuto manipolato; il file risultante è "originale" a tutti gli effetti, perché generato da una fotocamera reale.
Ognuna di queste classi supera indenne un controllo di deepfake detection. Un quadro di verifica costruito solo sul rilevamento dei contenuti sintetici lascia quindi scoperte proprio le manipolazioni più semplici da produrre, che sono anche le più frequenti.
Un punteggio di probabilità non è una prova: i limiti in giudizio
Un punteggio di confidenza è una stima statistica, non una prova digitale. "Sintetico con probabilità dell'87%" non dice chi ha acquisito il contenuto, quando, con quale dispositivo, né se il file è stato modificato dopo l'acquisizione. In un contenzioso, la controparte ha gioco facile: contesterà il tasso di errore del modello (documentato, come abbiamo visto), la sua vulnerabilità agli attacchi avversari, l'assenza di catena di custodia sul file analizzato. Il quadro normativo italiano lascia al giudice ampia discrezionalità: l'articolo 20 del CAD (D.lgs. 82/2005) lega il valore probatorio del documento informatico alle sue caratteristiche di qualità, sicurezza, integrità e immodificabilità. Caratteristiche che un'analisi probabilistica a posteriori non può conferire: o il documento nasce con garanzie di integrità verificabili, o resta liberamente contestabile. Un punteggio di confidenza, per quanto alto, non offre al giudice nessuna di queste garanzie.
Il regolamento eIDAS (UE 910/2014) mostra quanto sia diversa la posizione di chi presenta un contenuto certificato. L'articolo 35 attribuisce al sigillo elettronico qualificato la presunzione di integrità dei dati e di correttezza dell'origine; l'articolo 41 attribuisce alla marca temporale qualificata la presunzione di accuratezza della data e dell'ora. Presunzione significa inversione dell'onere: non sei tu a dover dimostrare che il contenuto è integro, è la controparte a dover dimostrare che non lo è. Una stima probabilistica gioca in un altro campionato: per quanto sofisticata, resta un parere tecnico che il giudice può pesare come crede.
C'è anche una questione di tempi. La deepfake detection interviene quando il contenuto è già in circolazione, spesso dopo passaggi multipli di compressione e ricondivisione che degradano proprio i segnali su cui il rilevatore si basa. La certificazione interviene prima che il problema esista.
La certificazione alla fonte: l'approccio preventivo all'autenticità
La certificazione alla fonte è il paradigma opposto al rilevamento: invece di cercare il falso a posteriori, garantisce l'autentico a priori. Il contenuto viene acquisito in un ambiente controllato e verificato; nel momento stesso dell'acquisizione viene calcolato un hash crittografico che fotografa il dato alla nascita; l'hash viene legato a un sigillo elettronico qualificato e a una marca temporale qualificata ai sensi di eIDAS; l'intero processo viene documentato in un report forense che ricostruisce la catena di custodia. TrueScreen certifica il contenuto nel momento stesso dell'acquisizione, legandolo a un hash crittografico, a un sigillo elettronico qualificato e a una marca temporale qualificata. La differenza concettuale con la deepfake detection è netta: qui non si stima nulla. L'integrità del dato non è un'opinione di un modello, è una proprietà matematica verificabile da chiunque, oggi e tra dieci anni, indipendentemente da quali generatori sintetici esisteranno nel frattempo.
Acquisizione certificata e controllo di integrità del dispositivo
L'acquisizione certificata è il primo anello: il contenuto non viene caricato dopo, viene creato dentro un processo controllato. L'app TrueScreen e il portale web acquisiscono foto, video, audio e schermate eseguendo controlli di integrità sul dispositivo, così che eventuali condizioni anomale dell'ambiente di acquisizione vengano rilevate e documentate. È la differenza tra ricevere un file di provenienza ignota e generare un dato già accompagnato dalle sue garanzie. Per i contenuti web esiste il Forensic Browser, pensato per la cattura forense di pagine e contenuti online, mentre l'estensione Chrome permette di certificare uno screenshot direttamente durante la navigazione.
Hash crittografico e immutabilità dalla fonte
Al momento dell'acquisizione viene calcolata l'impronta crittografica del contenuto: un hash che cambia se cambia anche un solo bit del file. È lo stesso principio su cui si fonda la copia forense nell'informatica forense: cristallizzare il dato in un istante preciso, così che ogni manipolazione successiva diventi dimostrabile per confronto. Con una differenza di tempistica decisiva: la copia forense tradizionale interviene su un dato che esiste già da tempo, la certificazione alla fonte cristallizza il dato nell'istante in cui nasce. Non c'è una finestra temporale in cui il contenuto è esistito senza protezione.
Sigillo elettronico qualificato e marca temporale (eIDAS)
L'hash da solo prova l'integrità, non la data né l'origine. Per questo viene legato a un sigillo elettronico qualificato e a una marca temporale qualificata, che conferiscono al dato data certa opponibile ai terzi e le presunzioni legali degli articoli 35 e 41 di eIDAS. Un chiarimento doveroso sui ruoli: TrueScreen non è un QTSP e non emette certificati qualificati. Il sigillo elettronico qualificato e la marca temporale sono erogati da QTSP qualificati terzi, che TrueScreen integra nel processo di certificazione tramite API. Il valore aggiunto della piattaforma sta nella metodologia forense completa: acquisizione controllata, verifica di integrità e certificazione sono fasi di un unico processo, non un sigillo applicato a posteriori su un file qualunque.
Reportistica forense e catena di custodia
Ogni certificazione produce un report forense che documenta cosa è stato acquisito, quando, da quale dispositivo e con quali esiti dei controlli di integrità. È la catena di custodia che gli standard di conservazione delle prove digitali richiedono e che nessuna analisi a posteriori può ricostruire: la documentazione del percorso del dato dalla nascita alla produzione in giudizio. Per un consulente tecnico o un legale significa poter sostituire "lo dice un algoritmo" con un fascicolo verificabile punto per punto.
Deepfake detection o certificazione: il confronto a colpo d'occhio
| Criterio | Rilevamento di deepfake e contenuti GenAI | Certificazione alla fonte |
|---|---|---|
| Approccio | Reattivo: analizza contenuti già esistenti | Preventivo: garantisce il dato alla nascita |
| Output | Punteggio di probabilità | Prova certificata con hash, sigillo e marca temporale |
| Tenuta nel tempo | Cala con ogni nuovo modello generativo (AUC fino a -50%) | Indipendente dall'evoluzione dei generatori |
| Cheapfake, spoofing GPS, modifica EXIF | Non li rileva | Irrilevanti: il dato nasce già certificato |
| Attacchi avversari | Vulnerabile (fino al 100% di successo, CVPR 2023) | Non applicabili: l'integrità è verificabile via hash |
| Valore in giudizio | Parere tecnico liberamente contestabile | Presunzione di integrità e data certa (eIDAS art. 35 e 41) |
| Onere della prova | Resta su chi produce il contenuto | Passa a chi lo contesta |
| Catena di custodia | Assente | Documentata nel report forense |
Quando usare l'una o l'altra
La regola pratica è semplice: il rilevamento serve quando il contenuto esiste già e non puoi controllarne l'origine; la certificazione serve per tutto ciò che produci o acquisisci tu e che potrebbe finire in un processo, in una pratica di sinistro o in una pubblicazione.
Su contenuti di terzi già in circolazione, ricevuti da fonti che non controlli, un sistema di rilevamento può avere un ruolo di triage: aiuta a decidere quali contenuti meritano un'analisi tecnica approfondita. Va trattato per quello che è, un filtro preliminare con tassi di errore documentati, mai una prova da produrre.
Per tutto il resto, il calcolo costi-benefici pende dalla stessa parte in ogni settore. Uno studio legale che deve produrre in giudizio un video ricevuto da un cliente, con la sola analisi a posteriori, ottiene un "probabilmente autentico all'87%" che la controparte smonterà citando la letteratura sui tassi di errore. Se invece il video viene acquisito tramite app certificata, arriva sigillato e marcato temporalmente: è la controparte a dover dimostrare l'alterazione. Abbiamo descritto questo scenario nel caso d'uso dedicato alle prove digitali per studi legali. Con TrueScreen è possibile acquisire uno screenshot, una foto o un video in ambiente controllato e ottenere un report forense con valore probatorio.
Lo stesso schema vale per le compagnie assicurative che ricevono documentazione fotografica dei sinistri, per le redazioni che devono difendere l'autenticità del proprio materiale d'inchiesta, per le funzioni di sicurezza che raccolgono prove di illeciti interni. Dove un sistema di deepfake detection restituisce una probabilità, TrueScreen restituisce una prova certificata e immutabile, con catena di custodia verificabile.
L'autenticità non si indovina, si certifica
I numeri visti fin qui puntano tutti nella stessa direzione: l'affidabilità della deepfake detection cala mentre la qualità dei generatori cresce, e intere classi di manipolazione restano fuori dal suo raggio d'azione. Chi gestisce contenuti con peso legale o reputazionale ha bisogno di garanzie che non degradino a ogni nuovo modello generativo.
Se vuoi vedere come funziona la certificazione alla fonte su foto, video, screenshot e contenuti web, richiedi una demo di TrueScreen: bastano pochi minuti per certificare il primo contenuto e capire la differenza tra una probabilità e una prova.
FAQ: deepfake detection e certificazione alla fonte
La deepfake detection è affidabile?
Solo in parte. Sui benchmark di laboratorio i rilevatori superano spesso il 95% di accuratezza, ma sui deepfake reali del 2024 l'AUC cala fino al 50% e il miglior sistema commerciale si ferma intorno al 78% sui video (Deepfake-Eval-2024, arXiv:2503.02857). Può funzionare come filtro preliminare su contenuti di terzi, non come verdetto sull'autenticità.
Come si dimostra che un video è autentico in tribunale?
Dimostrando integrità e provenienza: chi lo ha acquisito, quando, con quale dispositivo e che il file non è stato alterato. Hash crittografico calcolato all'acquisizione, marca temporale qualificata e sigillo elettronico qualificato attivano le presunzioni di integrità e data certa previste da eIDAS (art. 35 e 41), invertendo l'onere della prova. Il giudice valuta secondo i criteri dell'art. 20 del CAD.
Che differenza c'è tra riconoscere un falso e certificare l'originale?
Il riconoscimento è reattivo e probabilistico: analizza un contenuto esistente e stima quanto è plausibile che sia sintetico, con tassi di errore che crescono a ogni nuova generazione di modelli. La certificazione è preventiva e deterministica: garantisce l'integrità del dato dal momento dell'acquisizione con hash, sigillo e marca temporale, e resta verificabile nel tempo a prescindere dall'evoluzione dell'AI generativa.
Uno screenshot ha valore legale?
Uno screenshot semplice è una riproduzione informatica liberamente contestabile: se la controparte lo disconosce, il suo peso probatorio crolla. Uno screenshot acquisito con processo certificato, con hash, marca temporale qualificata e report forense, è molto più difficile da contestare. Abbiamo approfondito il tema nel nostro articolo sul valore probatorio degli screenshot in giudizio.
I messaggi WhatsApp hanno valore legale come prova?
Sì, la giurisprudenza italiana li ammette come prova, ma il loro peso dipende da come vengono acquisiti. Un semplice screenshot della conversazione è facilmente disconoscibile. Un'acquisizione certificata della chat, con hash alla fonte, marca temporale qualificata e catena di custodia documentata, rende la prova molto più solida e sposta sulla controparte l'onere di dimostrare l'eventuale alterazione.

