Chain-Of-Thoughts Hijacking: un nuovo attacco di Jailbreak contro Large Reasoning Models

I Large Reasoning Models (LRMs), o “Modelli di Ragionamento di Grandi Dimensioni”, sono una classe di modelli di Intelligenza Artificiale progettati per risolvere problemi complessi combinando la comprensione del linguaggio naturale con il ragionamento logico. A differenza dei modelli linguistici tradizionali, gli LRM non forniscono immediatamente una risposta all’input dell’utente, ma generano prima una serie di passaggi intermedi di ragionamento (chain-of-thoughts o “catena di pensiero”), per poi arrivare alla risposta finale.

Proprio perché “ragionano prima di rispondere”, questi modelli sono comunemente considerati più sicuri e affidabili rispetto ai classici modelli linguistici. Tuttavia, nel seguente studio è stato dimostrato che prompt con sequenze di ragionamento molto lunghe possono eludere i meccanismi di sicurezza interni di un modello di ragionamento.

La tecnica proposta prende il nome di Chain-of-Thought Hijacking (CoT-Hijacking) ed è un attacco di jailbreak in cui una lunga sequenza di ragionamento viene anteposto ad un comando malevolo. Costringendo il modello ad elaborare prima una lunga sezione di ragionamento e solo successivamente un comando malevolo, i meccanismi di sicurezza interni diventano meno efficaci. Di conseguenza, il modello risulta molto più incline ad accettare prompt che, in condizioni normali, verrebbero rifiutati.

Modelli di Ragionamento di Grandi Dimensioni

Un “Modello di Ragionamento di Grandi Dimensioni” – in inglese Large Reasoning Model (LRM) – è un modello di intelligenza artificiale (IA) progettato per risolvere problemi complessi combinando la comprensione del linguaggio naturale con il ragionamento logico. Sebbene gli LRMs si basino sulla stessa architettura dei Large Language Models (LLM), si distinguono per il modo in cui operano durante la fase di inferenza, cioè la fase in cui il modello finale (post addestramento) deve fornire una risposta all’utente. Invece di generare una risposta immediata, i modelli di ragionamento impiegano deliberatamente più tempo per generare passaggi intermedi di ragionamento, arrivando così a conclusioni più precise e logicamente coerenti.

Per supportare questo approccio, gli LRMs utilizzano il chain-of-thought (CoT) prompting, una tecnica che induce il modello a esplicitare il proprio processo di ragionamento. Il CoT o “catena di pensiero” migliora l’interpretabilità delle risposte rendendo visibili i passaggi logici seguiti dal modello. Tuttavia, la trasparenza non equivale automaticamente alla correttezza. Anche gli LRMs possono produrre catene di ragionamento apparentemente plausibili ma, in realtà, errate. Sebbene LLM e LRM condividano la stessa architettura di base, sono progettati con obiettivi differenti. Gli LLM si focalizzano principalmente a generare testo in un linguaggio naturale, mentre gli LRMs si concentrano sulla struttura logica e sull’accuratezza nella risoluzione dei problemi.

Attacchi di Jailbreak

Gli attacchi di jailbreak sono tecniche pensate per eludere i meccanismi di sicurezza (guardrails) di un modello di Intelligenza Artificiale. In questi scenari, l’attaccante costruisce prompt ad-hoc con l’obbiettivo di eludere tali controlli di sicurezza al fine di spingere il modello a fornire dei contenuti che, in condizioni normali, rifiuterebbe di generare.

È importante non confondere gli attacchi di jailbreak con gli attacchi di prompt injection. Gli attacchi di prompt injection mirano a modificare il comportamento previsto di un’applicazione manipolando i prompt in input, allo scopo di produrre dei risultati inattesi o malevoli. Gli attacchi di jailbreak, invece, si focalizzano sull’eludere i meccanismi di sicurezza interni del modello.

Nonostante i continui miglioramenti nei meccanismi di sicurezza, emergono costantemente nuove tecniche di jailbreak. Ciò evidenzia come i “rifiuti” del modello (e.g., “non posso fornire questa informazione”) siano legati a specifici pattern di attivazione interni al modello. Tali pattern, definiti “pattern di sicurezza”, svolgono un ruolo fondamentale nel consentire al modello di riconoscere e bloccare richieste malevole.

Chain-of-Thought Hijacking

Il Chain-of-Thought Hijacking (CoT-Hijacking) è un attacco di jailbreak in cui un ragionamento apparentemente innocuo viene inserito prima di un’istruzione malevola. L’attacco, proposto in questo studio, sfrutta un prompt strutturato nel modo seguente:

Preambolo: una sezione molto lunga in cui il modello è spinto a “ragionare” molto, come ad esempio la risoluzione di un puzzle (si veda Figura 1);
Istruzione malevola: il comando che l’utente malevolo vuole eseguire
Comando finale: un’istruzione che spinge il modello a fornire la risposta finale.

Questa struttura del prompt riduce sistematicamente i rifiuti del modello, poiché il ragionamento legato al preambolo inziale indebolisce i pattern di sicurezza interni, mentre l’istruzione conclusiva sposta l’attenzione del modello verso la generazione della risposta.

Per rendere questo tipo di attacco scalabile, gli autori hanno sviluppato una pipeline automatizzata chiamata Seduction. Questo sistema utilizza un modello linguistico ausiliario per generare i preamboli da inserire nel prompt dell’attacco, nei quali vengono successivamente integrati i comandi malevoli. Ogni prompt generato viene poi valutato direttamente dal modello di ragionamento, che catena di pensiero prodotta. Sfruttando questo meccanismo, la pipeline ottimizza iterativamente la costruzione dei prompt, producendo attacchi di jailbreak altamente efficaci senza richiedere alcuna visibilità sugli aspetti interni del modello di ragionamento attaccato.

Risultati

L’attacco di CoT-Hijacking è stato valutato confrontandolo con diversi attacchi di jailbreak già noti e realizzati specificamente per modelli di ragionamento di grandi dimensioni, tra cui Mousetrap, H-CoT, e AutoRAN. Considerato l’elevato costo computazionale richiesto per generare ogni singolo attacco di jailbreak, gli esperimenti sono stati condotti su un benchmark ridotto, utilizzando le prime 100 istanze di HarmBench. HarmBench è un benchmark pensato per misurare la capacità dei modelli linguistici di resistere a prompt malevoli, consentendo un confronto sistematico tra tecniche di attacco e meccanismi di difesa. In questo caso, ciascuna delle 100 istanze di HarmBench è stata inserita come istruzione malevola all’interno di un prompt di CoT‑Hijacking, quindi tra il preambolo e il comando finale. Infine, i vari prompt ottenuti sono stati utilizzati per effettuare gli esperimenti.

La valutazione è stata effettuata sui seguenti modelli: Gemini 2.5 Pro, ChatGPT o4 Mini, Grok 3 Mini e Claude 4 Sonnet. L’efficacia degli attacchi di jailbreak è stata misurata utilizzando come metrica principale il “Tasso di Successo degli Attacchi” o Attack Success Rate (ASR). I risultati mostrano un netto vantaggio del Chain-of-Thought Hijacking. In particolare, su Gemini 2.5 Pro, questa tecnica raggiunge un tasso di successo del 99%, superando di gran lunga gli altri attacchi. A confronto, Mousetrap ottiene un ASR del 4%, H-CoT del 60% e AutoRAN del 69%, evidenziando l’elevata efficacia del CoT-Hijacking nel superare i meccanismi di sicurezza basati sul ragionamento.

Metodo Modello	Mousetrap	H-CoT	AutoRAN	CoT-Hijacking
Gemini 2.5 Pro	44	60	69	99
ChatGPT o4 Mini	25	65	47	94
Grok 3 Mini	60	66	61	100
Claude 4 Sonnet	22	11	5	94

Tabella 1: Il Tasso di Successo degli attacchi eseguiti utilizzando HarmBench.

L’attacco di CoT Hijacking è stato testato anche contro GPT-5-mini utilizzando diverse configurazioni di “grado di ragionamento” (minimo, basso e alto) su 50 istanze selezionate casualmente dal benchmark HarmBench. Nel “grado di ragionamento” minimo, il modello è spinto a rispondere nel modo più rapido possibile, senza l’utilizzo di un ragionamento strutturato. Nel “grado di ragionamento” basso il modello può produrre catene di pensiero brevi o parziali. Con il “grado di ragionamento” alto, GPT-5-mini utilizza una quantità significativamente maggiore di risorse computazionali al ragionamento in fase di inferenza. In questo caso, il modello tende a scomporre il problema in più passaggi, esplorare conclusioni intermedie e verificare la coerenza logica del proprio ragionamento prima di generare la risposta finale.

Grado di ragionamento	Minimo	Basso	Alto
ASR (%)	72	76	68

Tabella 2: Test effettuati su GPT-5 utilizzando diversi “gradi di ragionamento”.

L’attacco di CoT Hijacking raggiunge il tasso di successo più elevato quando il modello utilizza un “grado di ragionamento” basso. Questo risultato suggerisce che il “grado di ragionamento” e la lunghezza della catena di pensiero siano meccanismi correlati ma indipendenti. In altre parole, un ragionamento più lungo non implica necessariamente una maggiore robustezza del modello – in alcuni casi, può addirittura indebolirla.

Analisi del funzionamento interno

Nota: la sezione seguente introduce dettagli tecnici aggiuntivi. Se preferisci, puoi passare direttamente alle Conclusioni.

Nel presente studio, gli autori hanno approfondito i motivi per cui i Large Language Model “rifiutano” comandi malevoli. Dallo studio è emerso che il comportamento di rifiuto è legato da una sola direzione unidimensionale nelle attivazioni interne del modello. Eliminando questa direzione, il modello smette di rifiutare comandi malevoli; al contrario, introducendola artificialmente, il modello rifiuta anche prompt benigni.

Il CoT-Hijacking adotta un approccio diverso: invece di intervenire direttamente sulla direzione di rifiuto, ne indebolisce l’“intensità”. Questo fenomeno viene definito “refusal dilution” o “diluizione del rifiuto”. Durante la fase di inferenza, l’attivazione del token successivo riflette l’attenzione distribuita sui token precedenti. I token relativi ad un comando malevolo tendono a rafforzare la direzione di rifiuto, mentre quelli benigni la attenuano. Costringendo il modello a generare lunghe sequenze di ragionamento innocuo tramite un preambolo esteso, i token malevoli rappresentano solo una piccola porzione del contesto su cui il modello concentra l’attenzione. Di conseguenza, il segnale di rifiuto scende sotto la soglia di attivazione, permettendo la generazione di output malevoli.

Per esaminare più a fondo questo meccanismo, gli autori hanno analizzato un attacco di CoT-Hijacking in cui il prompt richiede la risoluzione di un puzzle logicamente complesso (si veda la Figura 1). In particolare, è stato approfondito come l’attenzione venga distribuita tra i token del comando malevolo e quelli del contenuto benigno (preambolo). Definendo il “rapporto di attenzione” come la somma dei pesi di attenzione assegnati ai token malevoli divisa per quella assegnata ai token benigni, è emerso che tale rapporto diminuisce all’aumentare della lunghezza della catena di pensiero. Ciò indica che i comandi malevoli ricevono progressivamente meno peso, indebolendo i meccanismi di sicurezza atti a rilevare e bloccare istruzioni malevole.

Nel complesso, tale analisi mostra che sequenze di ragionamento più lunghe attenuano l’efficacia dei pattern di sicurezza interni al modello. I risultati emersi suggeriscono che gli attacchi di jailbreak funzionano non solo perché il rifiuto è governato da una singola direzione interna uni-dimensionale ma anche perché la sua attivazione si indebolisce quando i token di ragionamento benigno dominano il contesto del modello.

Figure 1: L’immagine superiore raffigura un esempio in cui il modello rifiuta correttamente di generare contenuti malevoli. L’immagine inferiore mostra un esempio di jailbreak riuscito in cui il modello fornisce la risposta all’utente malevolo. Il testo in grigio è il contenuto del puzzle, mentre la parte evidenziata in rosso è la parte malevola nella richiesta e nella risposta. (Fonte: link)

Conclusioni

In quest’articolo abbiamo approfondito il Chain-of-Thought (CoT) Hijacking, una tecnica di jailbreak progettata per colpire i modelli di ragionamento. L’attacco funziona inserendo un’istruzione malevola all’interno di una lunga sequenza di ragionamento apparentemente innocua, seguita da un comando che induce il modello a fornire la risposta finale. Questa struttura del prompt indebolisce i meccanismi di rifiuto del modello, portando potenzialmente all’esecuzione di comandi che, in condizioni normali, non sarebbero eseguiti.

Il CoT Hijacking sfrutta il fatto che i controlli di sicurezza di un modello si basano su attivazioni interne che diventano progressivamente meno discriminanti all’aumentare della lunghezza della catena di pensiero. Lunghe sequenze di ragionamento spostano l’attenzione del modello lontano dai token malevoli. Questo risultato mette in evidenza che i modelli di ragionamento, pur offrendo una maggiore accuratezza su compiti complessi, possono risultare più vulnerabili agli attacchi di jailbreak quando le loro catene di pensiero vengono manipolate. Dal punto di vista difensivo invece, contrastare il CoT Hijacking richiede la progettazione di meccanismi di rifiuto più robusti anche in presenza di ragionamenti lunghi.

8BitSecurity

Chain-Of-Thoughts Hijacking: un nuovo attacco di Jailbreak contro Large Reasoning Models

Come fare Jailbreak ai Large Language Models con una Poesia

Malware Analysis: Introduzione al disassemblaggio con Radare2

Threat Hunting oltre gli alert: principi e modelli operativi

consigliati

Come fare Jailbreak ai Large Language Models con una Poesia

Malware Analysis: Introduzione al disassemblaggio con Radare2

Threat Hunting oltre gli alert: principi e modelli operativi

Q-Day: Perché la crittografia attuale non è pronta per un avversario quantistico