Les générateurs d’pictures d’IA, qui créent des vues fantastiques à l’intersection des rêves et de la réalité, bouillonnent à tous les cash du Net. Leur valeur de divertissement est démontrée par un trésor en constante enlargement d’pictures fantaisistes et aléatoires servant de portails indirects vers le cerveau des concepteurs humains. Une easy invite de texte donne une picture presque instantanée, satisfaisant nos cerveaux primitifs, qui sont câblés pour une gratification instantanée.
Bien qu’apparemment naissant, le domaine de l’artwork généré par l’IA remonte aux années 1960 avec les premières tentatives utilisant des approches symboliques basées sur des règles pour créer des pictures methods. Alors que la development des modèles qui démêlent et analysent les mots a gagné en sophistication, l’explosion de l’artwork génératif a suscité des débats autour du droit d’auteur, de la désinformation et des préjugés, tous embourbés dans le battage médiatique et la controverse. Yilun Du, doctorant au Département de génie électrique et d’informatique et affilié au Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL), a récemment développé une nouvelle méthode qui fait des modèles comme DALL-E 2 plus créatif et avoir une meilleure compréhension de la scène. Ici, Du décrit remark ces modèles fonctionnent, si cette infrastructure method peut être appliquée à d’autres domaines et remark nous traçons la frontière entre l’IA et la créativité humaine.
Q : Les pictures générées par l’IA utilisent ce qu’on appelle des modèles de « diffusion steady » pour transformer les mots en pictures étonnantes en quelques instants seulement. Mais pour chaque picture utilisée, il y a généralement un humain derrière. Alors, quelle est la frontière entre l’IA et la créativité humaine ? Remark fonctionnent réellement ces modèles ?
UN: Imaginez toutes les pictures que vous pourriez obtenir sur la recherche Google et leurs modèles associés. C’est le régime dont ces modèles sont nourris. Ils sont formés sur toutes ces pictures et leurs légendes pour générer des pictures similaires aux milliards d’pictures vues sur Web.
Disons qu’un modèle a vu beaucoup de pictures de chiens. Il est formé de sorte que lorsqu’il reçoit une invite de saisie de texte similaire comme « chien », il est succesful de générer une photograph qui ressemble beaucoup aux nombreuses pictures de chiens déjà vues. Maintenant, plus méthodologiquement, le fonctionnement de tout cela remonte à une très ancienne classe de modèles appelés « modèles basés sur l’énergie », originaires des années 70 ou 80.
Dans les modèles basés sur l’énergie, un paysage énergétique sur des pictures est construit, qui est utilisé pour simuler la dissipation physique pour générer des pictures. Lorsque vous déposez un level d’encre dans l’eau et qu’il se dissipe, par exemple, à la fin, vous obtenez simplement cette texture uniforme. Mais si vous essayez d’inverser ce processus de dissipation, vous récupérez progressivement le level d’encre d’origine dans l’eau. Ou disons que vous avez cette tour de blocs très complexe, et si vous la frappez avec une balle, elle s’effondre en un tas de blocs. Ce tas de blocs est alors très désordonné, et il n’y a pas vraiment de construction. Pour ressusciter la tour, vous pouvez essayer d’inverser ce processus de pliage pour générer votre tas de blocs d’origine.
La façon dont ces modèles génératifs génèrent des pictures est très similaire, où, au départ, vous avez cette très belle picture, où vous partez de ce bruit aléatoire, et vous apprenez essentiellement à simuler le processus d’inversion de ce processus d’aller du bruit à votre picture d’origine, où vous essayez d’affiner itérativement cette picture pour la rendre de plus en plus réaliste.
En ce qui concerne la frontière entre l’IA et la créativité humaine, vous pouvez dire que ces modèles sont vraiment formés sur la créativité des gens. Web suggest tous les varieties de peintures et d’pictures que les gens ont déjà créées dans le passé. Ces modèles sont formés pour récapituler et générer les pictures qui ont été sur Web. En conséquence, ces modèles ressemblent davantage à des cristallisations de ce sur quoi les gens ont dépensé leur créativité pendant des centaines d’années.
En même temps, parce que ces modèles sont formés sur ce que les humains ont conçu, ils peuvent générer des œuvres d’artwork très similaires à ce que les humains ont fait dans le passé. Ils peuvent trouver des modèles dans l’artwork que les gens ont créé, mais il est beaucoup plus difficile pour ces modèles de générer eux-mêmes des pictures créatives.
Si vous essayez d’entrer une invite comme « artwork abstrait » ou « artwork distinctive » ou similaire, il ne comprend pas vraiment l’side créatif de l’artwork humain. Les modèles récapitulent plutôt ce que les gens ont fait dans le passé, pour ainsi dire, au lieu de générer un artwork fondamentalement nouveau et créatif.
Étant donné que ces modèles sont formés sur de vastes étendues d’pictures provenant d’Web, beaucoup de ces pictures sont probablement protégées par le droit d’auteur. Vous ne savez pas exactement ce que le modèle récupère lorsqu’il génère de nouvelles pictures, il y a donc une grande query de savoir remark vous pouvez même déterminer si le modèle utilise des pictures protégées par le droit d’auteur. Si le modèle dépend, dans un sure sens, de certaines pictures protégées par le droit d’auteur, ces nouvelles pictures sont-elles alors protégées par le droit d’auteur ? C’est une autre query à aborder.
Q : Croyez-vous que les pictures générées par les modèles de diffusion codent une sorte de compréhension des mondes naturels ou physiques, dynamiquement ou géométriquement ? Y a-t-il des efforts pour « enseigner » aux générateurs d’pictures les bases de l’univers que les bébés apprennent si tôt ?
UN: Comprennent-ils, en code, une certaine compréhension des mondes naturels et physiques ? Je pense définitivement. Si vous demandez à un modèle de générer une configuration steady de blocs, il génère définitivement une configuration de blocs steady. Si vous lui dites, générez une configuration instable de blocs, cela semble très instable. Ou si vous dites « un arbre à côté d’un lac », il est à peu près succesful de générer cela.
Dans un sens, il semble que ces modèles aient capturé un massive side du bon sens. Mais le problème qui nous rend, encore, très loin de vraiment comprendre le monde naturel et physique, c’est que lorsque vous essayez de générer des combinaisons de mots peu fréquentes que vous ou moi, dans notre travail, nos esprits pouvons très facilement imaginer, ces modèles ne le peuvent pas.
Par exemple, si vous dites « mettez une fourchette sur une assiette », cela arrive tout le temps. Si vous demandez au modèle de générer cela, il le peut facilement. Si vous dites « mettez une assiette sur une fourchette », encore une fois, il nous est très facile d’imaginer à quoi cela ressemblerait. Mais si vous mettez cela dans l’un de ces grands modèles, vous n’obtiendrez jamais une assiette sur une fourchette. Au lieu de cela, vous obtenez une fourchette sur une assiette, automotive les modèles apprennent à récapituler toutes les pictures sur lesquelles ils ont été entraînés. Il ne peut pas vraiment généraliser aussi bien à des combinaisons de mots qu’il n’a pas vus.
Un exemple assez connu est un astronaute à cheval, ce que le modèle peut faire facilement. Mais si vous dites qu’un cheval chevauche un astronaute, cela génère toujours une personne qui monte à cheval. Il semble que ces modèles capturent beaucoup de corrélations dans les ensembles de données sur lesquels ils sont entraînés, mais ils ne capturent pas réellement les mécanismes de causalité sous-jacents du monde.
Un autre exemple couramment utilisé est si vous obtenez des descriptions de texte très compliquées comme un objet à droite d’un autre, le troisième objet à l’avant et un troisième ou quatrième volant. Il n’est vraiment succesful de satisfaire peut-être qu’un ou deux des objets. Cela pourrait être en partie dû aux données de formation, automotive il est uncommon d’avoir des légendes très compliquées. Mais cela pourrait également suggérer que ces modèles ne sont pas très structurés. Vous pouvez imaginer que si vous obtenez des invitations en langage naturel très compliquées, le modèle ne peut en aucun cas représenter avec précision tous les détails des composants.
Q : Vous avez récemment mis au level une nouvelle méthode qui utilise plusieurs modèles pour créer des pictures plus complexes avec une meilleure compréhension de l’artwork génératif. Existe-t-il des purposes potentielles de ce cadre en dehors des domaines de l’picture ou du texte ?
UN: Nous nous sommes vraiment inspirés d’une des limites de ces modèles. Lorsque vous donnez à ces modèles des descriptions de scènes très compliquées, ils ne sont pas en mesure de générer correctement des pictures qui leur correspondent.
Une pensée est, puisqu’il s’agit d’un modèle distinctive avec un graphique de calcul fixe, ce qui signifie que vous ne pouvez utiliser qu’une quantité fixe de calcul pour générer une picture, si vous obtenez une invite extrêmement compliquée, il n’y a aucun moyen d’utiliser plus de puissance de calcul pour générer cela picture.
Si je donnais à un humain une description d’une scène qui faisait, disons, 100 lignes par rapport à une scène qui n’en faisait qu’une, un artiste humain peut passer beaucoup plus de temps sur la première. Ces modèles n’ont pas vraiment la sensibilité pour le faire. Nous proposons donc qu’avec des invitations très compliquées, vous puissiez en fait composer ensemble de nombreux modèles indépendants différents et faire en sorte que chaque modèle individuel représente une partie de la scène que vous souhaitez décrire.
Nous constatons que cela permet à notre modèle de générer des scènes plus compliquées, ou celles qui génèrent plus précisément différents facets de la scène ensemble. De plus, cette approche peut être généralement appliquée à une variété de domaines différents. Alors que la génération d’pictures est probablement l’utility la plus réussie actuellement, les modèles génératifs ont en fait vu tous les varieties d’purposes dans une variété de domaines. Vous pouvez les utiliser pour générer différents comportements de robots, synthétiser des formes 3D, permettre une meilleure compréhension de la scène ou concevoir de nouveaux matériaux. Vous pouvez potentiellement composer plusieurs facteurs souhaités pour générer le matériau actual dont vous avez besoin pour une utility particulière.
Une selected qui nous intéresse beaucoup est la robotique. De la même manière que vous pouvez générer différentes pictures, vous pouvez également générer différentes trajectoires de robotic (le chemin et le calendrier), et en composant différents modèles ensemble, vous pouvez générer des trajectoires avec différentes combinaisons de compétences. Si j’ai des spécifications en langage naturel sur le saut par rapport à l’évitement d’un impediment, vous pouvez également composer ces modèles ensemble, puis générer des trajectoires de robotic qui peuvent à la fois sauter et éviter un impediment.
De la même manière, si nous voulons concevoir des protéines, nous pouvons spécifier différentes fonctions ou facets – de manière analogue à la façon dont nous utilisons le langage pour spécifier le contenu des pictures – avec des descriptions de kind langage, telles que le kind ou la fonctionnalité de la protéine. Nous pourrions ensuite les composer ensemble pour générer de nouvelles protéines pouvant potentiellement satisfaire toutes ces fonctions données.
Nous avons également exploré l’utilisation de modèles de diffusion sur la génération de formes 3D, où vous pouvez utiliser cette approche pour générer et concevoir des ressources 3D. Normalement, la conception d’actifs 3D est un processus très compliqué et laborieux. En composant différents modèles ensemble, il devient beaucoup plus facile de générer des formes telles que « Je veux une forme 3D à quatre pieds, avec ce model et cette hauteur », automatisant potentiellement des events de la conception d’actifs 3D.