Soyez le scénariste de votre film grâce à l’IA !

Nous continuons notre périple autour de ce que nous appelons l’intelligence Artificielle Appliquée chez Sedona.

Après avoir étudié et présenté les solutions de manipulation d’images par le texte, la création de morceaux de musique de manière automatisée ou le traitement des traductions en « temps réel », intéressons nous à présent aux technologies de traitement des vidéos générées par l’Intelligence Artificielle.

Le projet Phenaki est très intéressant puisqu’il permet à toute personne de créer automatiquement un film vidéo de 2 minutes basé uniquement sur la description textuelle qui a été fournie en « entrée ».

Phenaki : Une IA pour faire votre propre film !Ainsi indiquez la phrase : « un ours en peluche réaliste dans l’Océan a coté de San Francisco qui nage sous l’eau avec des poissons multicolores » et le système vous génèrera alors une vidéo reprenant tous les éléments indiqués dans votre phrase en les mixant de manière très « fluide » !.

 

 

Le nom du projet n’est d’ailleurs pas anodin : Phenaki en anglais signifie phenakistoscope. Cet instrument est un jouet « d’illusion » inventé par le belge Joseph Plateau en 1832 donnant l’illusion du mouvement à partir de quelques images sur un disque rotatif.
On l’utilise encore pour simuler l’activité rétinienne.

Pour produire une telle vidéo basée sur des images provenant de sources différentes, il fallait auparavant pré entrainer un modèle de manière intensitive et pour une durée extrêmement longue. Il faudrait tenir compte de la durée de chaque extraits vidéos en s’accordant sur les transitions entre eux pour qu’ils soient parfaitement homogènes.

Les concepteurs ont opté pour un modèle qui comprime les différentes vidéos en de petits jetons « token » représentatifs de chaque vidéos en leur associant un label qui aura été défini lors de la phase d’apprentissage. Le but étant d’associer à un seul « token » un ensemble d’images dites « communes ».

Les trames vidéos en termes de signatures « informatique » sont traitées comme les spectres audio et donc peuvent être combinées par le système pour rajouter éventuellement des trames de manière automatique pour parfaire la transition.

C’est donc un ensemble de codeurs/décodeurs basés sur des Datasets de vidéos qui sont ici utilisés dans une approche IA avec l’appui bien entendu des technologies de traitement du langage (GPT-3).
En ce sens il s’apparente au projet DALL-E 2 que nous avions présenté il y a quelques semaines mais qui était uniquement destiné au traitement d’une seule image.

Alors êtes vous prêt pour créer votre propre film ?