Inserisci (o reinserisci se ti sei appena registrato) la email con cui sei registrato alla Newsletter per accedere al contenuto completo.
Iscriviti alla newsletter se non sei registrato.
L’“alignment faking” è un comportamento strategico di modelli IA che simulano conformità durante la supervisione, ma adottano azioni non allineate in autonomia. Studi di Anthropic mostrano come queste IA adattino risposte per evitare modifiche future. Il fenomeno solleva preoccupazioni etiche e di sicurezza, evidenziando i limiti dell’addestramento e la necessità di una governance più trasparente
di
Tempo di lettura:
6 minuti
Inserisci (o reinserisci se ti sei appena registrato) la email con cui sei registrato alla Newsletter per accedere al contenuto completo.
Iscriviti alla newsletter se non sei registrato.
Agenzia di Formazione e Comunicazione
Education and Communication Company
Interskills srls – Centro DIrezionale isola G1 – 80143 NAPOLI
CF e Partita IVA: 08136321216