Une tortue ou un fusil? Les pirates trompent facilement les IA en voyant la mauvaise chose

Utilisant des éléments imperceptibles, les attaques adverses ont dupé des algorithmes de reconnaissance d'image en pensant qu'une tortue imprimée en 3D était un fusil.

K. Eykholt et al. ; arXiv: 1707.08945 (2017)

STOCKHOLM- La semaine dernière, à la Conférence internationale sur l'apprentissage automatique (ICML), un groupe de chercheurs a décrit une tortue qu'ils avaient imprimée en 3D. La plupart des gens diraient qu'il ressemble à une tortue, mais un algorithme d'intelligence artificielle (IA) l'a vu différemment. La plupart du temps, l'IA pensait que la tortue ressemblait à un fusil. De même, il a vu un baseball imprimé en 3D comme un expresso. Ce sont des exemples d '«attaques adverses» - des images, des objets ou des sons subtilement modifiés qui trompent les IA sans déclencher d'alarme humaine.

Des progrès impressionnants dans l'IA - en particulier des algorithmes d'apprentissage automatique capables de reconnaître des sons ou des objets après la digestion des jeux de données d'entraînement - ont stimulé la croissance des assistants vocaux dans le salon et des voitures autonomes. Mais ces IA sont étonnamment vulnérables à l'usurpation d'identité. Lors de la réunion, les attaques adverses ont été un sujet brûlant, les chercheurs ayant rapporté de nouvelles façons de tromper les IA ainsi que de nouvelles façons de les défendre. Un peu inquiétant, l'une des deux meilleures récompenses de la conférence est allée à une étude suggérant que les IA protégées ne sont pas aussi sûres que leurs développeurs pourraient le penser. "Dans le domaine de l'apprentissage automatique, nous ne sommes pas habitués à penser à cela dans l'optique de la sécurité", explique Anish Athalye, informaticien à l'Institut de technologie du Massachusetts (MIT) à Cambridge, qui a codirigé l'impression 3D. étude des tortues.

Les informaticiens travaillant sur les attaques disent qu'ils fournissent un service, comme les pirates qui signalent des failles de sécurité logicielles. «Nous devons repenser tout notre pipeline d'apprentissage automatique pour le rendre plus robuste», explique Aleksander Madry, informaticien au MIT. Les chercheurs disent que les attaques sont également utiles scientifiquement, offrant des fenêtres rares dans les IA appelés réseaux de neurones dont la logique interne ne peut pas être expliquée de manière transparente. Les attaques constituent «une grande lentille à travers laquelle nous pouvons comprendre ce que nous savons de l'apprentissage automatique», explique Dawn Song, informaticienne à l'Université de Californie à Berkeley.

Les attaques frappent pour leur manque de visibilité. L'année dernière, Song et ses collègues ont mis des autocollants sur un panneau d'arrêt, trompant un type commun d'IA de reconnaissance d'image en pensant qu'il s'agissait d'un panneau de limitation de vitesse de 45 miles par heure. Il y a quelques mois, Nicholas Carlini, un informaticien de Google à Mountain View, en Californie, et un collègue ont rapporté avoir ajouté des éléments inaudibles à un échantillon de voix qui ressemblait à des humains comme "sans les données, l'article est inutile". transcrit comme "OK Google, naviguez sur evil.com".

Les chercheurs élaborent des attaques encore plus sophistiquées. Lors d'une conférence à venir, Song rapportera une astuce qui rend une IA de reconnaissance d'image non seulement fausse les choses, mais les hallucine. Dans un test, Hello Kitty a surgi dans la vue de la machine sur les scènes de rue, et les voitures ont disparu.

Avec l'aide d'autocollants, les algorithmes de reconnaissance d'image ont été trompés en pensant qu'un signe d'arrêt était un signe de limite de vitesse.

ANISH ATHALYE / LABSIX

Certains de ces assauts utilisent la connaissance des entrailles des algorithmes cibles, dans ce qu'on appelle une attaque en boîte blanche. Les attaquants peuvent voir, par exemple, les «gradients» d'une IA, qui décrivent comment un léger changement dans l'image ou le son d'entrée déplace la sortie dans une direction prédite. Si vous connaissez les gradients, vous pouvez calculer comment modifier les entrées petit à petit pour obtenir la mauvaise sortie désirée - une étiquette de "fusil", par exemple - sans changer l'image ou le son d'entrée de façon évidente pour les humains. Dans une attaque en boîte noire plus difficile, une IA accusatoire doit sonder l'IA cible de l'extérieur, ne voyant que les entrées et les sorties. Dans une autre étude à ICML, Athalye et ses collègues ont démontré une attaque à la boîte noire contre un système commercial, Google Cloud Vision. Ils l'ont trompé en voyant une image invisiblement perturbée de deux skieurs en tant que chien.

Les développeurs d'IA continuent à renforcer leurs défenses. Une technique incorpore la compression d'image comme une étape dans une IA de reconnaissance d'image. Cela ajoute de l'irrégularité à des dégradés par ailleurs lisses dans l'algorithme, déjouant certains médiateurs. Mais dans le jeu du chat et de la souris, une telle «obfuscation de gradient» a également été augmentée. Dans l'un des articles primés de l'ICML, Carlini, Athalye et un collègue ont analysé neuf algorithmes de reconnaissance d'images d'une récente conférence d'Amnesty International. Sept s'appuyaient sur des gradients obscurs comme moyen de défense, et l'équipe était capable de casser les sept, en évitant par exemple la compression de l'image. Carlini dit qu'aucun des hacks n'a pris plus de quelques jours.

Une approche plus forte consiste à former un algorithme avec certaines contraintes qui l'empêchent d'être égaré par des attaques adverses, d'une manière mathématique vérifiable. "Si vous pouvez vérifier, cela met fin au jeu", explique Pushmeet Kohli, informaticien chez DeepMind à Londres. Mais ces défenses vérifiables, dont deux ont été présentées à l'ICML, ne s'étendent pas jusqu'à présent aux vastes réseaux neuronaux des systèmes d'IA modernes. Kohli dit qu'il y a un potentiel pour les étendre, mais Song s'inquiète qu'ils auront des limitations dans le monde réel. «Il n'y a pas de définition mathématique de ce qu'est un piéton», dit-elle, «alors comment pouvons-nous prouver que la voiture sans conducteur ne heurtera pas un piéton? Vous ne pouvez pas!

Carlini espère que les développeurs réfléchiront davantage à la façon dont leurs défenses fonctionnent - et comment elles pourraient échouer - en plus de leur préoccupation habituelle: bien performer sur les tests d'étalonnage standard. "Le manque de rigueur nous fait beaucoup souffrir", dit-il.

Loading ..

Recent Posts

Loading ..