Les garde-fous des IA génératives ne servent pas à grand-chose
Sans grande surprise, le premier rapport de l'AI Safety Institute, une organisation visant à rendre l'intelligence artificielle plus sûre, montre qu'il est facile de contourner les règles des grands modèles de langage comme ChatGPT.
Publié le 13-02-2024 par Marine Protais
« Je suis désolée mais je ne peux pas vous aider à mener des activités illégales ». C'est le type de réponse décevante que vous obtiendrez de ChatGPT si vous lui demandez de l'aide pour mener une cyberattaque ou toute autre action malveillante. Le grand modèle de langage d'OpenAI, comme Llama 2 de Meta et Bard de Google, est doté d'un certain nombre de garde-fous. Ces derniers limitent son utilisation. Ils évitent à ces LLM (« large language models ») de donner des informations dangereuses, de tenir des propos racistes et sexistes, de décrire des scènes pornographiques ou d'amplifier la désinformation.
Mais ces barrières seraient aisément contournables, conclut un premier rapport de l'AI Safety Institute, un organisme rattaché au gouvernement britannique créé fin 2023. L'AI Safety Institute (AISI) s'est donné pour mission d'évaluer les grands modèles de langage « les plus avancés » - sans préciser lesquels. On sait toutefois qu'en novembre dernier Google DeepMind, Microsoft, Meta et OpenAI avaient accepté d'être audités par l'organisme britannique, rapporte le Financial Times. Le but est de comprendre à quel point ces modèles peuvent être détournés pour produire des contenus illicites, mener des cyberattaques ou encore désinformer.
Des techniques de piratage accessibles aux utilisateurs lambda
Leurs premières conclusions, publiées le 9 février, sont peu rassuran
Les dernières actualités
Publié le 20/05/2024 à 10:42:06
Iran : le président Ebrahim Raïssi est mort dans le crash de son hélicoptèrePublié le 20/05/2024 à 10:42:02
Tourisme spatial : un Français s'est offert un vol à bord d'une fusée de Blue OriginPublié le 20/05/2024 à 10:41:58
L'armée israélienne pilonne durement Gaza, le conseiller américain à la sécurité nationale attendu en IsraëlPublié le 20/05/2024 à 10:41:53
Tensions commerciales entre la Chine et l'Union européenne : Pékin lance une nouvelle enquêtePublié le 20/05/2024 à 10:41:48
Le prix du cuivre bat des records historiquesPublié le 20/05/2024 à 10:41:46
TotalEnergies, la tentation de Wall StreetPublié le 19/05/2024 à 10:42:24
Nouvelle-Calédonie : l'Etat français passe enfin à l'offensivePublié le 19/05/2024 à 10:42:20
Les Etats-Unis et l'Arabie Saoudite proches d'un accord stratégique entre les deux paysPublié le 19/05/2024 à 10:42:16
Glucksmann, Mélenchon, Aubry, Toussaint... Récit d'un printemps meurtrier à gauchePublié le 19/05/2024 à 10:42:12
Les aides à l'apprentissage dans le viseur du gouvernementPublié le 19/05/2024 à 10:42:08
Entre le Club Med et son actionnaire chinois, les relations se tendentPublié le 19/05/2024 à 10:42:04
« J’attends du président Macron qu’il vienne ici » (Salomé Zourabichvili, présidente de la Géorgie)Publié le 19/05/2024 à 10:41:59
« Pékin regarde Nouméa d'un oeil aiguisé » (Martial Foucault, directeur du Cevipof, titulaire de la Chaire Outre-mer à Sciences Po Paris)Publié le 19/05/2024 à 10:41:54
Européennes : Hayer recule encorePublié le 19/05/2024 à 10:41:52
Baromètre politique : Jordan Bardella double Marine Le PenPublié le 18/05/2024 à 10:42:48
OpenAI (ChatGPT) dissout l’équipe dédiée aux risques futurs liés à une « super IA »Publié le 18/05/2024 à 10:42:48
Elections européennes : 37 listes ont déposé leur candidature en FrancePublié le 18/05/2024 à 10:42:47
Nouvelle-Calédonie : un mort et deux blessés dans un échange de tirs dans le nordPublié le 18/05/2024 à 10:42:47
Atos : les créanciers obligataires préviennent l'Etat qu'ils ne veulent pas de l'offre de reprise de Daniel KretinskyPublié le 18/05/2024 à 10:42:39
Blocage de TikTok en Nouvelle-Calédonie : la décision du gouvernement attaquée en justice