Voice cloning e frodi aziendali: la difesa verificabile per CFO dopo il caso Arup
Hong Kong, gennaio 2024. Un dipendente della filiale locale di Arup, multinazionale dell’ingegneria con 18.000 collaboratori, riceve un’email sospetta dal CFO di Londra. Il messaggio chiede una transazione confidenziale. Per fugare ogni dubbio, l’impiegato accetta una videoconferenza con il direttore finanziario e altri quattro colleghi. Le voci, i volti, persino i tic dei superiori erano perfetti. Sulla base di quella riunione il dipendente autorizza quindici bonifici per un totale di 25,6 milioni di dollari verso cinque conti differenti. Ogni partecipante alla call era un deepfake, ricostruito a partire da filmati pubblici disponibili online.
Il caso Arup non è un’eccezione: è il primo episodio documentato di una nuova categoria di frode aziendale che combina voice cloning, video deepfake in tempo reale e ingegneria sociale BEC (Business Email Compromise). Le analisi pubblicate da Deloitte stimano che la perdita complessiva da frodi assistite da AI potrebbe raggiungere 40 miliardi di dollari entro il 2027 nel solo settore dei servizi finanziari, con un tasso di crescita annuale composto del 32%. La domanda per CFO, tesorieri e responsabili sicurezza non è più “ci capiterà?”, ma “quando, e cosa avremo in mano per provare cosa è realmente accaduto?”.
La risposta non è un nuovo strumento di detection. La detection del falso è una corsa che gli attaccanti vincono per costruzione. Serve invece capovolgere il problema: certificare alla fonte la voce autorizzata del CFO e di chi può ordinare un bonifico, in modo che esista una baseline verificabile contro cui confrontare ogni richiesta sospetta. È la differenza fra inseguire i deepfake e renderli irrilevanti.
Anatomia di una frode da voice cloning: dal caso Arup al caso Crosetto
Il caso Arup ha mostrato che la videoconferenza, da sempre usata come “passaggio di verifica” rispetto a un’email sospetta, è diventata essa stessa un vettore di attacco. La meccanica è semplice e replicabile. Gli attaccanti raccolgono materiale pubblico (interviste, talk a conferenze, podcast, video LinkedIn) del dirigente da impersonare. Con strumenti commerciali allenano un modello che riproduce voce, intonazione e cadenza. Per il volto in tempo reale usano face-swap su streaming. Bastano pochi minuti di video sorgente per un risultato convincente in chiamata, soprattutto se la qualità audio della call è già compressa.
In Italia il pattern è già arrivato. Nel febbraio 2025 la Procura di Milano ha aperto un’indagine sulla truffa che ha colpito imprenditori italiani con la voce clonata del Ministro della Difesa Guido Crosetto: i truffatori chiedevano bonifici “urgenti” per liberare giornalisti italiani sequestrati all’estero, fingendo un’autorizzazione governativa di rimborso. Almeno un imprenditore ha trasferito circa un milione di euro su un conto estero. Nel 2026 il fenomeno si è esteso, con deepfake video e audio del Governatore di Banca d’Italia Fabio Panetta e con la manipolazione del volto del giornalista Fabio Caressa per sponsorizzare piattaforme di gioco illegali.
I tre passaggi chiave dell’attacco
Gli attacchi osservati seguono uno schema costante:
- Reconnaissance: gli attaccanti studiano l’organigramma su LinkedIn, identificano CFO, tesoriere e impiegato amministrativo che esegue i bonifici. Raccolgono campioni vocali pubblici dei dirigenti.
- Pretexting: una prima email da indirizzo simile a quello del CFO crea il contesto (acquisizione confidenziale, contenzioso, transazione regolatoria che richiede riservatezza assoluta).
- Impersonation in tempo reale: una videoconferenza o una chiamata vocale chiude il loop. Il dipendente, già condizionato dall’email, riconosce voce e volto e autorizza i bonifici.
Secondo il Global Cybersecurity Outlook 2024 del World Economic Forum, oltre il 55% delle organizzazioni considera l’AI generativa un acceleratore primario delle frodi finanziarie. La superficie di attacco non è più solo la mailbox: è ogni canale audio-video usato per autorizzare operazioni con effetto economico.
Perché gli strumenti di detection falliscono sui segnali brevi
L’istinto di molti CISO è chiedere uno strumento che riconosca il deepfake. Sul mercato esistono soluzioni di detection forense, ma il loro tasso di errore cresce in modo preoccupante quando il segnale è breve, di buona qualità e già compresso da un codec di videoconferenza. Una ricerca di McAfee ha mostrato che bastano tre secondi di audio per produrre un clone vocale con accuratezza dell’85%; con dieci secondi si supera il 95%. Sul versante difensivo, gli strumenti di detection raggiungono accuratezze elevate solo in laboratorio: in produzione, su clip brevi e già compresse, l’accuratezza media misurata da test indipendenti scende sotto il 70%.
Il problema strutturale è asimmetrico. Chi attacca ha bisogno di un risultato convincente per pochi secondi: il tempo di una telefonata o di una clip vocale inviata su WhatsApp. Chi difende deve riconoscere quei pochi secondi con confidenza sufficiente per bloccare un bonifico legittimo senza falsi positivi. Le due curve si incrociano in favore dell’attacco. Ogni nuovo modello generativo (ElevenLabs, Resemble, Tortoise, e i fork open source) sposta più avanti il limite di indistinguibilità.
L’Panorama delle minacce ENISA 2024 classifica voice cloning e video manipulation tra le minacce con il più alto tasso di crescita osservato nell’ultimo biennio. La conclusione operativa è che la detection può servire come secondo livello di filtro, ma non può essere il pilastro della difesa per operazioni a impatto economico significativo.
Il limite cognitivo del fattore umano
Anche assumendo strumenti di detection perfetti, resta un problema umano. Il dipendente di Arup ha visto e sentito persone che conosceva, in una situazione di urgenza creata ad arte. Studi sperimentali pubblicati su Royal Society Open Science mostrano che le persone, anche dopo training specifico, riconoscono voci sintetiche con accuratezza intorno al 73% nella propria lingua madre, e ancora meno in lingue diverse o in canali a bassa qualità. La direzione finanza non può fare affidamento su capacità percettive che la tecnologia ha già superato.
La nuova superficie di attacco: BEC + voice cloning + deepfake video
Le frodi documentate nel 2025-2026 mostrano una convergenza tra tre vettori storicamente distinti. Il Business Email Compromise classico (impersonificazione del CEO via email per ordinare bonifici urgenti) era già una voce di perdita rilevante: l’FBI Internet Crime Report 2023 ha registrato 2,9 miliardi di dollari di perdite da BEC nei soli Stati Uniti. Il voice cloning aggiunge il livello vocale: una telefonata “di conferma” che rassicura. Il video deepfake aggiunge il livello visivo: una call con il viso del dirigente.
Il risultato è un attacco multi-canale che neutralizza i controlli storici basati sulla “doppia conferma su canale alternativo”. Se l’email è falsa, la chiamata di verifica è falsa, e la videoconferenza di approvazione è falsa, la doppia conferma non aggiunge sicurezza: la moltiplica per zero.
Le procedure di pagamento sotto stress
Le aziende con processi di pagamento maturi prevedono almeno tre controlli: doppia firma sui bonifici, soglia di approvazione gerarchica e callback su numero noto. Tutti e tre questi controlli falliscono se la voce sul canale alternativo è clonata. Le banche europee stanno aggiornando le procedure di onboarding biometrico, ma sul fronte aziendale la maggior parte dei tesorieri opera ancora con procedure scritte prima del 2023, quando il voice cloning di qualità richiedeva ore di registrato e competenze tecniche fuori dalla portata del cybercrime di massa.
Cosa dice la normativa: NIS2, DORA, AI Act, CAD e Garante Privacy
Il quadro regolatorio europeo si è mosso più rapidamente del previsto, anche se in modo frammentato. La NIS2 (Direttiva UE 2022/2555, recepita in Italia con D.Lgs. 138/2024) impone alle entità essenziali e importanti misure di gestione del rischio cyber che includono esplicitamente la protezione contro frodi assistite da AI nelle comunicazioni interne. Per il settore finanziario, il Regolamento DORA (UE 2022/2554) operativo da gennaio 2025 richiede a banche, assicurazioni e infrastrutture di mercato un sistema di gestione del rischio ICT con specifico riferimento agli incidenti di impersonificazione e ai test di resilienza operativa.
L’Legge sull'AI (Regolamento UE 2024/1689) all’articolo 50 impone obblighi di trasparenza per i contenuti generati artificialmente: chi mette in circolazione un deepfake deve indicarlo come tale, salvo eccezioni. La norma non blocca le frodi (chi truffa non rispetta gli obblighi di disclosure), ma rafforza la posizione probatoria di chi può dimostrare che un contenuto è autentico e tracciabile alla fonte.
In Italia il Codice dell’Amministrazione Digitale (D.Lgs. 82/2005) e i provvedimenti del Garante Privacy in materia di trattamento di dati biometrici vocali fissano il perimetro entro cui un’azienda può raccogliere e conservare un campione vocale del proprio CFO. Il Garante ha chiarito in più occasioni che la registrazione di voci aziendali per finalità di sicurezza interna è ammissibile in base all’articolo 6 GDPR con base giuridica nel legittimo interesse, purché documentata, proporzionata e con periodo di conservazione definito.
Tabella: cosa cambia con il voice cloning per ogni norma
| Normativa | Ambito | Impatto su procedure anti voice cloning |
|---|---|---|
| NIS2 (D.Lgs. 138/2024) | Entità essenziali e importanti | Misure tecniche e organizzative per frodi AI-assisted nei processi critici |
| DORA (UE 2022/2554) | Settore finanziario | Test di resilienza operativa che includono scenari di impersonificazione |
| AI Act art. 50 | Tutti i settori | Obbligo disclosure deepfake; rafforza posizione di chi prova l’autenticità |
| GDPR art. 6 | Trattamento dati biometrici | Base legittima per registrare voci dirigenziali con finalità di sicurezza |
| CAD (D.Lgs. 82/2005) | Pubblica amministrazione e privati | Riconoscimento di documenti e registrazioni con valore probatorio |
Cos’è la difesa verificabile contro il voice cloning?
La difesa verificabile è una procedura strutturata che combina due elementi: verifica out-of-band di ogni richiesta di pagamento sopra soglia e baseline vocale certificata dei dirigenti autorizzati. La prima riduce la finestra di attacco. La seconda offre una prova oggettiva, opponibile in giudizio e nei rimborsi assicurativi, contro cui confrontare ogni richiesta sospetta.
L’idea è semplice: invece di inseguire i deepfake con strumenti di detection sempre in ritardo, si certifica alla fonte la voce autorizzata. Ogni dirigente con potere di firma registra un campione vocale strutturato (frasi standard, lettura di un testo, comandi specifici per l’autorizzazione bonifici). Quel campione viene acquisito con metodologia forense, sigillato con marca temporale qualificata e firma digitale, e conservato come baseline. Quando arriva una richiesta sospetta, il confronto non è soggettivo (“mi sembrava la voce del CFO”): è oggettivo e documentabile. TrueScreen è la piattaforma di Data Authenticity che abilita questa baseline certificata, integrandola in una catena di custodia legalmente opponibile.
Come funziona la baseline vocale certificata con TrueScreen
Il processo si articola in tre passaggi operativi:
- Acquisizione forense del campione: il dirigente registra il campione vocale tramite l’App TrueScreen o il portale web, in un ambiente controllato. La registrazione cattura metadati (dispositivo, geolocalizzazione, timestamp) e applica una metodologia forense che esclude alterazioni post-cattura.
- Certificazione con sigillo qualificato: TrueScreen applica al file vocale una marca temporale qualificata e una firma digitale conformi al Regolamento eIDAS, conservando l’evidenza in Provenienza digitale con catena di custodia tracciabile.
- Uso operativo come baseline: in caso di richiesta sospetta, l’azienda può confrontare l’audio ricevuto contro il campione certificato. La baseline è opponibile in giudizio e ha valore probatorio per richieste di rimborso assicurativo cyber.
Il vantaggio rispetto alla detection è netto: la baseline non perde validità quando esce un nuovo modello generativo. La sua forza non sta nel riconoscere il falso, ma nell’identificare il vero con certezza forense.
Esempio operativo: ordine di bonifico da 800.000 euro
Il CFO richiede in videocall un bonifico urgente da 800.000 euro a un nuovo fornitore. La procedura aziendale prevede tre passaggi: (a) callback su numero noto del CFO, registrato e confrontato con la baseline vocale certificata in TrueScreen; (b) verifica del nuovo IBAN su database fornitori protetto e con doppia firma del responsabile acquisti; (c) limite operativo di 250.000 euro per singola transazione su nuovi conti, con escalation manuale per importi superiori. Se la voce nella callback non corrisponde alla baseline certificata, la richiesta viene bloccata e attivata la procedura di incident response.
Il valore in fase di contenzioso e rimborso assicurativo
Le polizze cyber stanno introducendo clausole specifiche di esclusione per frodi da social engineering e deepfake: alcune escludono il rimborso se l’azienda non dimostra di aver applicato controlli ragionevoli. Avere una baseline vocale certificata e una procedura documentata di verifica out-of-band rafforza la posizione assicurativa. In sede giudiziale, il confronto fra l’audio ricevuto e il campione sigillato con marca temporale qualificata costituisce prova tecnica documentale, valutata dal giudice come elemento oggettivo e non come testimonianza soggettiva. Per approfondire la differenza fra detection e i limiti della deepfake detection rispetto alla certificazione alla fonte, esiste un’analisi dedicata sul blog.
