Voice cloning e frodi aziendali: la difesa verificabile per CFO dopo il caso Arup

Hong Kong, gennaio 2024. Un dipendente della filiale locale di Arup, multinazionale dell’ingegneria con 18.000 collaboratori, riceve un’email sospetta dal CFO di Londra. Il messaggio chiede una transazione confidenziale. Per fugare ogni dubbio, l’impiegato accetta una videoconferenza con il direttore finanziario e altri quattro colleghi. Le voci, i volti, persino i tic dei superiori erano perfetti. Sulla base di quella riunione il dipendente autorizza quindici bonifici per un totale di 25,6 milioni di dollari verso cinque conti differenti. Ogni partecipante alla call era un deepfake, ricostruito a partire da filmati pubblici disponibili online.

Il caso Arup non è un’eccezione: è il primo episodio documentato di una nuova categoria di frode aziendale che combina voice cloning, video deepfake in tempo reale e ingegneria sociale BEC (Business Email Compromise). Le analisi pubblicate da Deloitte stimano che la perdita complessiva da frodi assistite da AI potrebbe raggiungere 40 miliardi di dollari entro il 2027 nel solo settore dei servizi finanziari, con un tasso di crescita annuale composto del 32%. La domanda per CFO, tesorieri e responsabili sicurezza non è più “ci capiterà?”, ma “quando, e cosa avremo in mano per provare cosa è realmente accaduto?”.

La risposta non è un nuovo strumento di detection. La detection del falso è una corsa che gli attaccanti vincono per costruzione. Serve invece capovolgere il problema: certificare alla fonte la voce autorizzata del CFO e di chi può ordinare un bonifico, in modo che esista una baseline verificabile contro cui confrontare ogni richiesta sospetta. È la differenza fra inseguire i deepfake e renderli irrilevanti.

Anatomia di una frode da voice cloning: dal caso Arup al caso Crosetto

Il caso Arup ha mostrato che la videoconferenza, da sempre usata come “passaggio di verifica” rispetto a un’email sospetta, è diventata essa stessa un vettore di attacco. La meccanica è semplice e replicabile. Gli attaccanti raccolgono materiale pubblico (interviste, talk a conferenze, podcast, video LinkedIn) del dirigente da impersonare. Con strumenti commerciali allenano un modello che riproduce voce, intonazione e cadenza. Per il volto in tempo reale usano face-swap su streaming. Bastano pochi minuti di video sorgente per un risultato convincente in chiamata, soprattutto se la qualità audio della call è già compressa.

In Italia il pattern è già arrivato. Nel febbraio 2025 la Procura di Milano ha aperto un’indagine sulla truffa che ha colpito imprenditori italiani con la voce clonata del Ministro della Difesa Guido Crosetto: i truffatori chiedevano bonifici “urgenti” per liberare giornalisti italiani sequestrati all’estero, fingendo un’autorizzazione governativa di rimborso. Almeno un imprenditore ha trasferito circa un milione di euro su un conto estero. Nel 2026 il fenomeno si è esteso, con deepfake video e audio del Governatore di Banca d’Italia Fabio Panetta e con la manipolazione del volto del giornalista Fabio Caressa per sponsorizzare piattaforme di gioco illegali.

I tre passaggi chiave dell’attacco

Gli attacchi osservati seguono uno schema costante:

  1. Reconnaissance: gli attaccanti studiano l’organigramma su LinkedIn, identificano CFO, tesoriere e impiegato amministrativo che esegue i bonifici. Raccolgono campioni vocali pubblici dei dirigenti.
  2. Pretexting: una prima email da indirizzo simile a quello del CFO crea il contesto (acquisizione confidenziale, contenzioso, transazione regolatoria che richiede riservatezza assoluta).
  3. Impersonation in tempo reale: una videoconferenza o una chiamata vocale chiude il loop. Il dipendente, già condizionato dall’email, riconosce voce e volto e autorizza i bonifici.

Secondo il Global Cybersecurity Outlook 2024 del World Economic Forum, oltre il 55% delle organizzazioni considera l’AI generativa un acceleratore primario delle frodi finanziarie. La superficie di attacco non è più solo la mailbox: è ogni canale audio-video usato per autorizzare operazioni con effetto economico.

Perché gli strumenti di detection falliscono sui segnali brevi

L’istinto di molti CISO è chiedere uno strumento che riconosca il deepfake. Sul mercato esistono soluzioni di detection forense, ma il loro tasso di errore cresce in modo preoccupante quando il segnale è breve, di buona qualità e già compresso da un codec di videoconferenza. Una ricerca di McAfee ha mostrato che bastano tre secondi di audio per produrre un clone vocale con accuratezza dell’85%; con dieci secondi si supera il 95%. Sul versante difensivo, gli strumenti di detection raggiungono accuratezze elevate solo in laboratorio: in produzione, su clip brevi e già compresse, l’accuratezza media misurata da test indipendenti scende sotto il 70%.

Il problema strutturale è asimmetrico. Chi attacca ha bisogno di un risultato convincente per pochi secondi: il tempo di una telefonata o di una clip vocale inviata su WhatsApp. Chi difende deve riconoscere quei pochi secondi con confidenza sufficiente per bloccare un bonifico legittimo senza falsi positivi. Le due curve si incrociano in favore dell’attacco. Ogni nuovo modello generativo (ElevenLabs, Resemble, Tortoise, e i fork open source) sposta più avanti il limite di indistinguibilità.

L’Panorama delle minacce ENISA 2024 classifica voice cloning e video manipulation tra le minacce con il più alto tasso di crescita osservato nell’ultimo biennio. La conclusione operativa è che la detection può servire come secondo livello di filtro, ma non può essere il pilastro della difesa per operazioni a impatto economico significativo.

Il limite cognitivo del fattore umano

Anche assumendo strumenti di detection perfetti, resta un problema umano. Il dipendente di Arup ha visto e sentito persone che conosceva, in una situazione di urgenza creata ad arte. Studi sperimentali pubblicati su Royal Society Open Science mostrano che le persone, anche dopo training specifico, riconoscono voci sintetiche con accuratezza intorno al 73% nella propria lingua madre, e ancora meno in lingue diverse o in canali a bassa qualità. La direzione finanza non può fare affidamento su capacità percettive che la tecnologia ha già superato.

La nuova superficie di attacco: BEC + voice cloning + deepfake video

Le frodi documentate nel 2025-2026 mostrano una convergenza tra tre vettori storicamente distinti. Il Business Email Compromise classico (impersonificazione del CEO via email per ordinare bonifici urgenti) era già una voce di perdita rilevante: l’FBI Internet Crime Report 2023 ha registrato 2,9 miliardi di dollari di perdite da BEC nei soli Stati Uniti. Il voice cloning aggiunge il livello vocale: una telefonata “di conferma” che rassicura. Il video deepfake aggiunge il livello visivo: una call con il viso del dirigente.

Il risultato è un attacco multi-canale che neutralizza i controlli storici basati sulla “doppia conferma su canale alternativo”. Se l’email è falsa, la chiamata di verifica è falsa, e la videoconferenza di approvazione è falsa, la doppia conferma non aggiunge sicurezza: la moltiplica per zero.

Comunicazioni certificate MiFID II TrueScreen

Caso d’uso

Comunicazioni certificate MiFID II

Come la registrazione certificata alla fonte protegge banche e intermediari da contestazioni e frodi sulla voce di consulenti e clienti.

Scopri di più →

Le procedure di pagamento sotto stress

Le aziende con processi di pagamento maturi prevedono almeno tre controlli: doppia firma sui bonifici, soglia di approvazione gerarchica e callback su numero noto. Tutti e tre questi controlli falliscono se la voce sul canale alternativo è clonata. Le banche europee stanno aggiornando le procedure di onboarding biometrico, ma sul fronte aziendale la maggior parte dei tesorieri opera ancora con procedure scritte prima del 2023, quando il voice cloning di qualità richiedeva ore di registrato e competenze tecniche fuori dalla portata del cybercrime di massa.

Cosa dice la normativa: NIS2, DORA, AI Act, CAD e Garante Privacy

Il quadro regolatorio europeo si è mosso più rapidamente del previsto, anche se in modo frammentato. La NIS2 (Direttiva UE 2022/2555, recepita in Italia con D.Lgs. 138/2024) impone alle entità essenziali e importanti misure di gestione del rischio cyber che includono esplicitamente la protezione contro frodi assistite da AI nelle comunicazioni interne. Per il settore finanziario, il Regolamento DORA (UE 2022/2554) operativo da gennaio 2025 richiede a banche, assicurazioni e infrastrutture di mercato un sistema di gestione del rischio ICT con specifico riferimento agli incidenti di impersonificazione e ai test di resilienza operativa.

L’Legge sull'AI (Regolamento UE 2024/1689) all’articolo 50 impone obblighi di trasparenza per i contenuti generati artificialmente: chi mette in circolazione un deepfake deve indicarlo come tale, salvo eccezioni. La norma non blocca le frodi (chi truffa non rispetta gli obblighi di disclosure), ma rafforza la posizione probatoria di chi può dimostrare che un contenuto è autentico e tracciabile alla fonte.

In Italia il Codice dell’Amministrazione Digitale (D.Lgs. 82/2005) e i provvedimenti del Garante Privacy in materia di trattamento di dati biometrici vocali fissano il perimetro entro cui un’azienda può raccogliere e conservare un campione vocale del proprio CFO. Il Garante ha chiarito in più occasioni che la registrazione di voci aziendali per finalità di sicurezza interna è ammissibile in base all’articolo 6 GDPR con base giuridica nel legittimo interesse, purché documentata, proporzionata e con periodo di conservazione definito.

Tabella: cosa cambia con il voice cloning per ogni norma

Normativa Ambito Impatto su procedure anti voice cloning
NIS2 (D.Lgs. 138/2024) Entità essenziali e importanti Misure tecniche e organizzative per frodi AI-assisted nei processi critici
DORA (UE 2022/2554) Settore finanziario Test di resilienza operativa che includono scenari di impersonificazione
AI Act art. 50 Tutti i settori Obbligo disclosure deepfake; rafforza posizione di chi prova l’autenticità
GDPR art. 6 Trattamento dati biometrici Base legittima per registrare voci dirigenziali con finalità di sicurezza
CAD (D.Lgs. 82/2005) Pubblica amministrazione e privati Riconoscimento di documenti e registrazioni con valore probatorio

Cos’è la difesa verificabile contro il voice cloning?

La difesa verificabile è una procedura strutturata che combina due elementi: verifica out-of-band di ogni richiesta di pagamento sopra soglia e baseline vocale certificata dei dirigenti autorizzati. La prima riduce la finestra di attacco. La seconda offre una prova oggettiva, opponibile in giudizio e nei rimborsi assicurativi, contro cui confrontare ogni richiesta sospetta.

L’idea è semplice: invece di inseguire i deepfake con strumenti di detection sempre in ritardo, si certifica alla fonte la voce autorizzata. Ogni dirigente con potere di firma registra un campione vocale strutturato (frasi standard, lettura di un testo, comandi specifici per l’autorizzazione bonifici). Quel campione viene acquisito con metodologia forense, sigillato con marca temporale qualificata e firma digitale, e conservato come baseline. Quando arriva una richiesta sospetta, il confronto non è soggettivo (“mi sembrava la voce del CFO”): è oggettivo e documentabile. TrueScreen è la piattaforma di Data Authenticity che abilita questa baseline certificata, integrandola in una catena di custodia legalmente opponibile.

Come funziona la baseline vocale certificata con TrueScreen

Il processo si articola in tre passaggi operativi:

  1. Acquisizione forense del campione: il dirigente registra il campione vocale tramite l’App TrueScreen o il portale web, in un ambiente controllato. La registrazione cattura metadati (dispositivo, geolocalizzazione, timestamp) e applica una metodologia forense che esclude alterazioni post-cattura.
  2. Certificazione con sigillo qualificato: TrueScreen applica al file vocale una marca temporale qualificata e una firma digitale conformi al Regolamento eIDAS, conservando l’evidenza in Provenienza digitale con catena di custodia tracciabile.
  3. Uso operativo come baseline: in caso di richiesta sospetta, l’azienda può confrontare l’audio ricevuto contro il campione certificato. La baseline è opponibile in giudizio e ha valore probatorio per richieste di rimborso assicurativo cyber.

Il vantaggio rispetto alla detection è netto: la baseline non perde validità quando esce un nuovo modello generativo. La sua forza non sta nel riconoscere il falso, ma nell’identificare il vero con certezza forense.

Esempio operativo: ordine di bonifico da 800.000 euro

Il CFO richiede in videocall un bonifico urgente da 800.000 euro a un nuovo fornitore. La procedura aziendale prevede tre passaggi: (a) callback su numero noto del CFO, registrato e confrontato con la baseline vocale certificata in TrueScreen; (b) verifica del nuovo IBAN su database fornitori protetto e con doppia firma del responsabile acquisti; (c) limite operativo di 250.000 euro per singola transazione su nuovi conti, con escalation manuale per importi superiori. Se la voce nella callback non corrisponde alla baseline certificata, la richiesta viene bloccata e attivata la procedura di incident response.

App TrueScreen acquisizione voce certificata

Funzionalità

App TrueScreen per acquisizione forense

Acquisisci voce, video e documenti con metodologia forense direttamente da smartphone. Catena di custodia certificata e valore legale.

Scopri di più →

Il valore in fase di contenzioso e rimborso assicurativo

Le polizze cyber stanno introducendo clausole specifiche di esclusione per frodi da social engineering e deepfake: alcune escludono il rimborso se l’azienda non dimostra di aver applicato controlli ragionevoli. Avere una baseline vocale certificata e una procedura documentata di verifica out-of-band rafforza la posizione assicurativa. In sede giudiziale, il confronto fra l’audio ricevuto e il campione sigillato con marca temporale qualificata costituisce prova tecnica documentale, valutata dal giudice come elemento oggettivo e non come testimonianza soggettiva. Per approfondire la differenza fra detection e i limiti della deepfake detection rispetto alla certificazione alla fonte, esiste un’analisi dedicata sul blog.

FAQ: voice cloning e frodi aziendali

Quanti secondi di audio servono per clonare una voce?
Secondo McAfee bastano tre secondi di registrato di buona qualità per produrre un clone vocale con accuratezza dell’85%. Con dieci secondi si supera il 95%. Strumenti commerciali come ElevenLabs e Resemble rendono questa capacità accessibile a chiunque. Per CFO e dirigenti esposti pubblicamente (interviste, podcast, talk a conferenze) il materiale è già disponibile online.
Quanto è cresciuto il rischio di frodi da deepfake nel 2026?
I tentativi di frode aziendale tramite deepfake vocali e video sono cresciuti del 300% nel 2026 rispetto al 2024 secondo i rapporti di settore. Deloitte stima che la perdita complessiva nei servizi finanziari potrebbe raggiungere 40 miliardi di dollari entro il 2027. Il caso Arup (25,6 milioni di dollari di perdita, 2024) è il primo episodio documentato di frode multi-canale BEC + video deepfake.
Gli strumenti di detection AI sono affidabili?
In laboratorio raggiungono accuratezze elevate. In produzione, su clip brevi e già compresse da codec di videoconferenza, l’accuratezza media scende sotto il 70%. La detection può servire come secondo filtro, ma non può essere il pilastro della difesa per operazioni a impatto economico significativo. La direzione opposta (certificare alla fonte la voce autorizzata) offre una base oggettiva indipendente dall’evoluzione dei modelli generativi.
Una baseline vocale certificata è ammissibile in giudizio in Italia?
Una registrazione acquisita con metodologia forense, sigillata con marca temporale qualificata e firma digitale conformi al Regolamento eIDAS, costituisce prova tecnica documentale ammissibile davanti al giudice italiano. Il valore probatorio deriva dalla catena di custodia tracciabile e dall’immodificabilità del file dal momento dell’acquisizione. Il Garante Privacy ammette il trattamento dei dati biometrici vocali con base giuridica nel legittimo interesse aziendale, purché documentato e proporzionato.
Quali normative impongono controlli contro le frodi da AI?
In Europa le principali sono NIS2 (D.Lgs. 138/2024 in Italia) per entità essenziali e importanti, DORA (UE 2022/2554) per il settore finanziario operativo da gennaio 2025, e AI Act art. 50 (UE 2024/1689) per la disclosure dei contenuti generati artificialmente. In Italia si aggiungono il CAD (D.Lgs. 82/2005) per il valore dei documenti digitali e i provvedimenti del Garante Privacy sui dati biometrici. Tutte queste norme rafforzano la posizione di chi può dimostrare l’autenticità delle proprie comunicazioni interne.

Voce certificata alla fonte: il fondamento della difesa verificabile

Valuta un programma di certificazione delle voci autorizzate della C-suite per proteggere processi di pagamento, comunicazioni interne e posizione assicurativa contro voice cloning e deepfake.

applicazione mockup