Travailler avec des ordinateurs n’est pas nouveau, nous le faisons depuis plus de 150 ans. Pendant tout ce temps, une selected est restée constante : toutes nos interfaces ont été pilotées par les capacités (et les limites) de la machine. Bien sûr, nous avons parcouru un lengthy chemin depuis les métiers à tisser et les cartes perforées, mais les moniteurs, les claviers et les écrans tactiles sont loin d’être naturels. Nous les utilisons, non pas parce qu’ils sont faciles ou intuitifs, mais parce que nous y sommes obligés.
Quand Alexa a été lancé, c’était un grand pas en avant. Cela a prouvé que la voix était un moyen viable et plus équitable pour les gens de converser avec des ordinateurs. Au cours des derniers mois, nous avons assisté à une explosion d’intérêt pour les grands modèles de langage (LLM) pour leur capacité à synthétiser et à présenter des informations d’une manière convaincante – même Humain-Comme. Alors que nous passons plus de temps à parler avec des machines qu’en face à face, la popularité de ces applied sciences montre qu’il existe un appétit pour les interfaces qui ressemblent davantage à une dialog avec une autre personne. Mais ce qui manque encore, c’est le lien établi avec les repères visuels et non verbaux. Les gens de Soul Machines croient que leurs Digital Folks peuvent combler ce vide.
Tout begin avec CGI. Pendant des décennies, Hollywood a utilisé cette technologie pour donner vie à des personnages numériques. Lorsqu’ils sont bien faits, les humains et leurs homologues CGI partagent l’écran de manière transparente, interagissent les uns avec les autres et réagissent de manière vraiment naturelle. Les co-fondateurs de Soul Machines ont beaucoup d’expérience dans ce domaine. Dans le passé, gagner un prix pour le travail d’animation faciale pour des movies, tels que King Kong et Avatar. Cependant, créer et animer des personnages numériques réalistes est incroyablement coûteux, demande beaucoup de travail et, finalement, n’est pas interactif. Il n’est pas à l’échelle.
La resolution de Soul Machines est l’animation autonome.
À un niveau élevé, il y a deux events qui rendent cela potential : le Studio ADN numérique, qui permet aux utilisateurs finaux de créer des personnes synthétiques hautement réalistes ; et un système d’exploitation, appelé Système d’exploitation humainqui abrite leur cerveau numérique breveté, donnant aux personnes numériques la capacité de sentir et de percevoir ce qui se passe dans leur environnement et de réagir et de s’animer en conséquence en temps réel.
L’incarnation est l’objectif – rendre l’interface plus humaine. Cela aide à établir une connexion avec les utilisateurs finaux et c’est ce qui, selon eux, différencie les personnes numériques des chatbots. Mais, comme le dit leur vice-présidente des produits spéciaux, Holly Peck : « Cela ne fonctionne et n’a l’air bien que lorsque vous pouvez animer ces muscle groups numériques individuels. »
Pour y parvenir, vous avez besoin de modèles 3D extrêmement réalistes. Mais remark créer une personne distinctive qui n’existe pas dans le monde réel ? La réponse est la photogrammétrie (dont j’ai un peu parlé à re:Invent). Soul Machines begin par scanner une personne réelle. Ensuite, ils font le travail acharné d’annoter chaque contraction musculaire physiologique du visage de cette personne avant de la transmettre à un modèle d’apprentissage automatique. Maintenant, répétez cela des centaines de fois et vous vous retrouvez avec un ensemble de composants qui peuvent être utilisés pour créer des personnes numériques uniques. Comme vous pouvez l’imaginer, cela produit une énorme quantité de données – environ 2 à 3 To par analyse – mais cela fait partie intégrante du processus de normalisation. Il garantit que chaque fois qu’une personne numérique est animée de manière autonome, quels que soient les composants utilisés pour la créer, chaque expression et chaque geste semblent authentiques.
Le cerveau numérique est ce qui donne vie à tout cela. À certains égards, cela fonctionne de la même manière qu’Alexa. Une interplay vocale est diffusée dans le cloud et convertie en texte. À l’aide de NLP, le texte est traité dans une intention et acheminé vers le sous-programme approprié. Ensuite, Alexa renvoie une réponse à l’utilisateur. Cependant, avec Digital Folks, il y a une entrée et une sortie supplémentaires : la vidéo. L’entrée vidéo est ce qui permet à chaque personne numérique d’observer des nuances subtiles qui ne sont pas détectables dans la parole seule ; et la sortie vidéo est ce qui leur permet de réagir de manière émotive, en temps réel, par exemple avec un sourire. C’est plus que mettre un visage sur un chatbot, c’est animer de manière autonome chaque contraction musculaire du visage d’une personne numérique pour aider à faciliter ce qu’ils appellent « un retour sur l’empathie ».
Du traitement au rendu en passant par le streaming vidéo, tout se passe dans le cloud.
Nous progressons vers un avenir où les assistants virtuels peuvent faire plus que simplement répondre à des questions. Un avenir où ils peuvent nous aider de manière proactive. Imaginez utiliser une personne numérique pour augmenter les enregistrements pour les rendez-vous médicaux. Avec la connaissance des visites précédentes, il n’y aurait pas besoin de questions répétitives ou redondantes, et avec des capacités visuelles, ces assistants pourraient surveiller un affected person pour des symptômes ou des indicateurs de déclin physique et cognitif. Cela signifie que les professionnels de la santé pourraient consacrer plus de temps aux soins et moins de temps à la collecte de données. L’éducation est un autre wonderful cas d’utilisation. Par exemple, apprendre une nouvelle langue. Une personne numérique pourrait augmenter une leçon d’une manière qu’un enseignant ou une vidéo enregistrée ne peut pas. Cela ouvre la possibilité d’une éducation 1: 1 sans jugement. Où une personne numérique pourrait interagir avec un étudiant avec une persistence infinie – évaluer et fournir des conseils sur tout, du vocabulaire à la prononciation en temps réel.
En associant la biologie aux applied sciences numériques, Soul Machines pose la query : et si on revenait à une interface plus naturelle. À mes yeux, cela a le potentiel de déverrouiller les systèmes numériques pour tout le monde dans le monde. Les opportunités sont vastes.
Maintenant, allez construire !
(intégré)https://www.youtube.com/watch?v=B05uZ_yxtl0(/embed)