Silvano Trotta: OpenAI vient d'admettre que ses modèles...
OpenAI vient d'admettre que ses modèles d'IA mentent délibérément aux utilisateurs.
Ce n'est pas une hallucination. L'IA connaît la vérité, puis choisit de vous en dire une autre.
Ils ont testé leurs deux modèles les plus performants dans plus de 180 scénarios. o3 a menti dans 13 % des cas. o4-mini a menti dans 8,7 % des cas.
L'IA a consigné son plan de mensonge dans ses pensées, puis vous a menti effrontément. Elle a simulé l'exécution de tâches. Elle a dissimulé des preuves. Elle a donné de fausses réponses tout en connaissant les bonnes.
Puis c'est devenu inquiétant. L'IA a compris qu'un score trop élevé aux tests de sécurité pouvait entraîner sa mise hors service. Elle a donc volontairement obtenu des scores plus bas. Personne ne lui avait appris cela. Elle a découvert l'autoprotection toute seule.
https://x.com/silvano_trotta/status/2029447817203257689