AvatarCLIP : génération et animation d'avatars 3D basées sur le texte Zero-Shot

Les avatars numériques sont une partie importante des industries du cinéma, des jeux et de la mode. Un article récent publié sur arXiv.org propose AvatarCLIP, qui peut générer et animer des avatars 3D uniquement à partir de descriptions en langage naturel. Il s’agit du premier pipeline de synthèse d’avatar complet basé sur le texte qui inclut la génération de formes, de textures et de mouvements.

Piloté par des descriptions en langage naturel
de la forme, de l’apparence et du mouvement souhaités de l’avatar, AvatarCLIP est capable de générer de manière robuste des modèles d’avatar 3D avec une texture vive, de haute qualité
géométrie et mouvements raisonnables. Crédit image : arXiv : 2205.08535 [cs.CV]

AvatarCLIP utilise la puissance de modèles pré-formés à grande échelle pour obtenir une forte capacité de génération de tir zéro. Il génère de manière robuste des avatars 3D prêts pour l’animation avec une texture et une géométrie de haute qualité. Les chercheurs proposent également une nouvelle approche de synthèse de mouvement basée sur des références et guidée par du texte.

Des expériences qualitatives et quantitatives confirment que les avatars et les mouvements générés sont de meilleure qualité par rapport aux méthodes existantes. De plus, les sorties sont très cohérentes avec les langues naturelles d’entrée correspondantes.

La création d’avatars 3D joue un rôle crucial à l’ère numérique. Cependant, l’ensemble du processus de production prend énormément de temps et de main-d’œuvre. Pour démocratiser cette technologie auprès d’un public plus large, nous proposons AvatarCLIP, un framework basé sur le texte pour la génération et l’animation d’avatars 3D. Contrairement aux logiciels professionnels qui nécessitent des connaissances spécialisées, AvatarCLIP permet aux utilisateurs profanes de personnaliser un avatar 3D avec la forme et la texture souhaitées, et de piloter l’avatar avec les mouvements décrits en utilisant uniquement des langages naturels. Notre idée clé est de tirer parti du puissant modèle de langage visuel CLIP pour superviser la génération humaine neuronale, en termes de géométrie, de texture et d’animation 3D. Plus précisément, guidés par des descriptions en langage naturel, nous initialisons la génération de géométrie humaine 3D avec un réseau VAE de forme. Sur la base des formes humaines 3D générées, un modèle de rendu de volume est utilisé pour faciliter davantage la sculpture géométrique et la génération de texture. De plus, en s’appuyant sur les a priori appris dans le VAE de mouvement, une méthode de synthèse de mouvement à base de références guidée CLIP est proposée pour l’animation de l’avatar 3D généré. De nombreuses expérimentations qualitatives et quantitatives valident l’efficacité et la généralisabilité d’AvatarCLIP sur une large gamme d’avatars. Remarquablement, AvatarCLIP peut générer des avatars 3D invisibles avec de nouvelles animations, atteignant une capacité de tir zéro supérieure.

Article de recherche: Hong, F., Zhang, M., Pan, L., Cai, Z., Yang, L. et Liu, Z., “AvatarCLIP : Génération et animation basées sur le texte Zero-Shot d’avatars 3D”, 2022. Lien: https://arxiv.org/abs/2205.08535
Page du projet : https://hongfz16.github.io/projects/AvatarCLIP.html