Aller au contenu

Création d'une vidéo de fiction. Tester l'intelligence artificielle générative de vidéo

Noter ce sujet


Comemich
 Partager

Messages recommandés

Vous allez rire de moi. Le bout d’essai que je présente est truffé de défauts. Ne croyez pas que c’est de ma faute. J’ai tout fait pour essayer de réaliser proprement ce test et j’y ai passé beaucoup de temps. L’idée de départ consistait à voir ce qu’on pouvait faire avec l’intelligence artificielle actuelle. J’avais fait un story-board de 14 minutes inspiré par un passage du livre « L’herbe d’or » de Jakez Hélias. Mon test est une scène de 1 min 30 sec, au milieu du court métrage. J’ai tout défini moi même : les paysages, les décors, les personnages, les accessoires. J’ai tout décrit méticuleusement : l’action, le dialogue, l’éclairage, les bruitages… Mais j’ai beau travailler les « prompts » pendant des heures, je n’obtiens pas exactement ce que je cherche à faire. La principale difficulté est d’assurer la cohérence entre les plans. Pour chaque plan, l’IA recalcule à chaque fois une nouvelle vidéo sans tenir compte des plans précédents, même si mon « prompt » précise que c’est le même personnage et qu’il ne faut pas lui changer la figure et les vêtements à chaque coup. Idem pour les décors, les couleurs, l’éclairage… L’astuce suggérée par le robot conversationnel (français) « Mistral » consiste à générer des images fixes représentant chaque personnage sous différents angles et attitudes. Puis de s’en servir comme référence dans la création de vidéos. Le résultat est imparfait, mais c’est déjà mieux. Certains logiciels s’avèrent plus performants (exemple Veo 3.1 et MyEdit) mais ils prennent des libertés avec ce qu’on leur demande. C’est souvent rédhibitoire.

Pour les dialogues, c’est la galère. Je ne maîtrise pas le timbre ni l’intonation de la voix. La synchronisation labiale est aléatoire. Le résultat est tellement irréaliste, que j’ai décidé de mettre les paroles en breton. C’est aussi nul qu’en français, mais comme on ne comprend rien, c’est plus supportable. Je n’ai pas pris le temps de mettre des sous titres.

Les mouvements de caméra sont difficiles à maîtriser car l’IA ne travaille pas en 3D. J’utilise parfois des recadrages avec le logiciel de montage, mais c’est au détriment de la qualité d’image.

Nos caméscopes, APN, drones, micros et accessoires ont encore de beaux jours devant eux, avant d’aller rejoindre les caméras super 8 sur leur étagère poussiéreuses. Mais le temps passe vite et les progrès sont spectaculaires. Je suis convaincu que l’IA sera capable de faire du vrai cinéma un jour prochain. La vidéo de fiction va devenir plus accessible aux amateurs. On a beau ricaner en regardant mon exercice, il faut reconnaître qu’on peut faire des décors et des paysages sympas en quelques minutes là où il aurait été impossible de fabriquer de tels décors. Il n’y a pas d’impossibilité du système pour assurer la cohérence des vues. C’est une question de méthode. Je suis certain que les développeurs seront capables de créer les outils appropriés. Je me souviens d’un collègue, passionné de photo argentique, qui se moquait de moi quand j’ai acheté mon premier appareil numérique 640 x 480. C’était en 1995.

 

 

Modifié par Comemich
Lien vers le commentaire
Partager sur d’autres sites

Bonjour

ton expérience est super et bluffante! Certes cela ne vaut pas un bon vieux tournage (d'autant qu'en général, ce sont de bons moments partagés!) mais n'en reste pas moins que c'est spectaculaire ! tu as du y passer un temps considérable!
Il me semble que ton expérience est rapidement valorisable notamment pour certains effets spéciaux à insérer dans le montage et comme base à travailler sur ton logiciel d'effets spéciaux favori!

Encore bravo et tous mes vœux de plaisirs et de joies pour 2026 ! il me semble que pour cette nouvelle année on doit surtout te souhaiter une bonne santé pour poursuivre ce travail.

Lien vers le commentaire
Partager sur d’autres sites

Tu as écrit : vous allez rire de moi.......Dans tes différents post j'ai cru comprendre  que l'I A n'était pas ta tasse de thé mais que comme moi cela t'interpellait et ne te laissait pas indifférent. Alors bravo et merci d'avoir eu les c.....s de nous démontrer le résultat de ce que nous pouvons en faire ,c'est à dire pas grand chose à notre niveau. Bien sur j'ai ri mais pas de toi parce que j'éssaie également de trouver ce que je peux en faire .

Lien vers le commentaire
Partager sur d’autres sites

Merci pour vos réactions rapides. Mon test portait sur un film de fiction. Les contraintes du langage cinématographique ne sont pas encore compatibles avec l'IA générative. On est contraint de chercher une méthode pour contourner les défauts. On doit se contenter de compromis foireux. C'est un début et les choses évoluent vite. On peut déjà faire beaucoup de choses, clip musicaux, spots publicitaires, présentation d'un projet. Voici 5 secondes qui plairaient bien à l'office du tourisme:

 

 

 

Lien vers le commentaire
Partager sur d’autres sites

bonsoir Michel 

cest bluffant mais très grave pour les acteurs monteurs caméraman etc

par contre pour les décors, pas pour les décorateurs, c’est interessant 

bonne année de tournage 

Lien vers le commentaire
Partager sur d’autres sites

Bonsoir Christophe,

C'est inquiétant pour l'avenir de certaines professions de l'industrie cinématographique. On aura toujours besoin d'auteurs, de réalisateurs, de monteurs. Il y aura de nouveaux métiers, car il ne faut pas croire que l'IA ça marche tout seul. Il faut savoir rédiger des requêtes pour diriger des acteurs fictifs, pour créer des ambiances, raconter des histoires. ça ne s'improvise pas, et l'IA ne fait pas tout à notre place. Elle essaye de faire ce qu'on lui demande. C'est une opportunité pour les vidéastes amateurs qui voient disparaitre certaines contraintes matérielles et financières. L'impact sera moins violent dans le reportage et le documentaire. On continuera à faire de la vidéo familiale, des gâteaux d'anniversaire et des souvenirs de vacances.  

Lien vers le commentaire
Partager sur d’autres sites

Tu t'en es plutôt bien sorti !

22 hours ago, Comemich said:

Pour les dialogues, c’est la galère. Je ne maîtrise pas le timbre ni l’intonation de la voix. La synchronisation labiale est aléatoire.

Kling s'en sort pas si mal sur ce point-là, en anglais, du moins (je n'ai pas testé d'autres langues).
Par contre, pour le timbre et l'intonation, il faudrait passer par un DAW (Ableton, Reaper, Cubase...) qui dispose d'outils pour cela.

Cubase permet notamment avec la fonction VariAudio de modifier le timbre et l'intonation.

 

22 hours ago, Comemich said:

La principale difficulté est d’assurer la cohérence entre les plans.

Luma (passé malheureusement en modèle payant) gérait pas mal  avec la possibilité  d'étendre les scènes (de 5 à 10 s, puis à 15, etc...).
Kling ne propose pas encore cette fonctionnalité, qui est pourtant courante sur les IA de génération musicale comme Udio ou Suno.
Je n'ai pas testé d'autres IA de génération vidéo, mais j'imagine que si Luma le propose, alors d'autres le proposent sans doute également.

Ne pas oublier que l'IA est en perpétuelle évolution : ce qui n'est pas simple aujourd'hui sera sans doute bien plus simple dans 6 mois.

 

22 hours ago, Comemich said:

Les mouvements de caméra sont difficiles à maîtriser car l’IA ne travaille pas en 3D.

Oui, mais tu peux définir des points de repère et demander à la caméra de se baser sur lesdits points, même si cette technique n'est pas non plus exempte de défauts.

Lien vers le commentaire
Partager sur d’autres sites

J'ai testé une douzaine de logiciels en essai gratuit ou en version payante. Ils se ressembles tous même si certains sont mieux adaptés pour tel ou tel plan. Je n'en ai pas trouvé un qui se démarque nettement. Il y a manifestement des difficultés liées au principe de l'IA. Les produits disponibles ont encore beaucoup à apprendre. Dans le cinéma, le mouvement n'est qu'une suite rapide d'images fixes. Mais pour L'IA actuelle, ces images ne sont que des similitudes avec les images qu'elle a appris à reconnaitre.  L'IA n'a pas connaissance de l'existence 3D des choses qu'elle représente. C'est rédhibitoire dans certaines séquences vidéo. Il sera difficile de dépasser cette limite, car c'est le principe même du système qui est en cause. J'attend qu'on me montre le contraire. 

Lien vers le commentaire
Partager sur d’autres sites

  • 2 mois plus tard...

bonjour Michel ha l IA !!!!

l’histoire est bien pensée !

la bande son est à revoir surtout au début arrêt brutal du bruit de la mer à l’entrée de la maison 

les personnages n’ont aucune vie sur leurs visages 

les lèvres ont un décalage par rapport aux sons des mots

mais un bel exercice qui me conforte dans ma question :

quid des équipes de tournage ???

voili voilou 

 

les images de mer sont belles !!!

la personne avec la brouette devant le banc est en lévitation !!!

Modifié par titof44
Lien vers le commentaire
Partager sur d’autres sites

Bonjour Christophe,

J'ai mis plus de trois mois à faire ces 4 minutes de vidéo. Dans ce délai, il faut compter une bonne part d'apprentissage, car l'utilisation des outils d'intelligence artificielle demande de la rigueur et de la patience pour obtenir ce qu'on cherche à faire. Comme déjà dit, on en est au balbutiement de cette technologie et les progrès sont rapides. Les plans que j'ai tenté en début d'année avaient une synchronisation labiale approximative. Mais les derniers dialogues réalisés ave Hedra sont d'un réalisme surprenant.

Je ne comprend pas bien ta remarque sur le bruit de la mer quand l'homme ferme la porte. Il m'a semblé logique que le bruit diminue et que la pièce s'assombrisse. J'ai beaucoup travaillé sur cette scène pour obtenir le résultat qu'on voit et qu'on entend. Concernant les expressions des visages sur mes comédiens virtuels, je suis plutôt satisfait. L'IA exprime la tristesse et l'angoisse aussi bien que la joie ou l'embarras. Le problème, là, c'est plutôt de contrôler le dosage car l'IA a tendance à en faire trop. Il faut quelquefois modérer ses expressions pour rester réaliste. J'ai beaucoup de mal avec l'expression vocale, le timbre, l'intonation. Mais là aussi, ça progresse. Je n'ai pas encore eu de reproche sur la cohérence chromatique entre les plans. C'est pourtant une difficulté que je ne maitrise pas beaucoup. Le pêcheur avec brouette n'est pas vraiment virtuel. C'est un amis que j'ai shooté avec mon smartphone. Le décors, c'est la cale de "Chastel Bihan" à Carantec. Tout le reste, c'est de la génération numérique.

 

Lien vers le commentaire
Partager sur d’autres sites

bonjour Michel ha l IA !!!!

l’histoire est bien pensée !

la bande son est à revoir surtout au début arrêt brutal du bruit de la mer à l’entrée de la maison 

les personnages n’ont aucune vie sur leurs visages 

les lèvres ont un décalage par rapport aux sons des mots

mais un bel exercice qui me conforte dans ma question :

quid des équipes de tournage ???

voili voilou 

Lien vers le commentaire
Partager sur d’autres sites

Salut Michel,
C'est plutôt pas mal ficelé dans l'ensemble.

2 hours ago, Comemich said:

Je ne comprend pas bien ta remarque sur le bruit de la mer quand l'homme ferme la porte. Il m'a semblé logique que le bruit diminue et que la pièce s'assombrisse

Oui, tu as raison, mais le bruit diminue trop. De même lors du passage de la pluie sur la fenêtre : on devrait entendre, même discrètement, le bruit des gouttes.

 

2 hours ago, Comemich said:

Le pêcheur avec brouette n'est pas vraiment virtuel.

Malheureusement, ça se voit : au premier passage, la démarche est un peu mécanique.
Au second, la source de lumière n'est pas la même que sur la scène générée par IA.

Enfin, à partir de 3:07, la musique est sympa, mais je ne vois pas le rapport avec le reste.

A titre d'exemple, un de mes frangins qui s'intéresse pas mal au sujet de l'IA a réalisé cette vidéo, qui est un extrait d'un podcast imaginaire sur l'accident d'un vaisseau spatial minier


Par contre, il a utilisé pas mal d'outils : 
- Gemini et
NoteBookLLM pour les textes
Flux 2 klein pour générer les images IA
-
LTX 3.2 pour les vidéos
- Elevenlabs pour les effets sonores,
- et Fish.audio (clonage de voix) pour le bonus de fin
- le tout assemblé avec Premiere.

Lien vers le commentaire
Partager sur d’autres sites

A mon avis, le tumulte de la mer en furie contribue à souligner l'intensité dramatique de la scène. J'avais besoin de créer cette ambiance angoissante avant de révéler qu'on avait seulement cassé une assiette, pour montrer toute l'ambiguïté des superstitions, Cette séquence dans la petite maison est suivie d'une ellipse spatio-temporelle pour amener la scène du banc public. 

Setu (voilà en breton).

Concernant l'avenir des équipes de tournage, je crois que les métiers du cinéma vont évoluer, comme c'est le cas de pratiquement tous les métiers. Pour les vidéastes amateurs qui ont d'insurmontables difficultés à constituer une équipe complète et performante, le cinéma virtuel est une opportunité. 

Lien vers le commentaire
Partager sur d’autres sites

Le pêcheur à la brouette, c'est une vidéo sur fond vert que j'ai incrusté au montage. L'IA générative n'y est pas pour grand chose. Je voulais rendre ce plan plus vivant. J'ai aussi ajouté une mouette qui s'envole. Je reconnais que le résultat n'est pas brillant. Je vais y réfléchir pour imaginer ce que j'aurais du faire pour réaliser proprement ce plan. Pour être franc, j'avais pensé que ces 2 secondes et demis allait passer inaperçu.

Lien vers le commentaire
Partager sur d’autres sites

Il y a 2 heures, Galfi a dit :

De même lors du passage de la pluie sur la fenêtre : on devrait entendre, même discrètement, le bruit des gouttes.

J'ai bien mis un bruit de pluie dans la timeline, mais il est peut être trop faible quand il se mélange avec le bruit de la mer. Ce genre de dosage est difficile à choisir. Mais je tiendrai compte de ta remarque si je fais une nouvelle version. 

Lien vers le commentaire
Partager sur d’autres sites

Il y a 3 heures, Galfi a dit :

Enfin, à partir de 3:07, la musique est sympa, mais je ne vois pas le rapport avec le reste.

Cette musique est entièrement générée par l'IA. J'ai choisi du Rock Métal parce que ça me semblait bien exprimer la violence des océans.

Lien vers le commentaire
Partager sur d’autres sites

Je t'avoue que je ne suis pas convaincu par le résultat... Cependant, je m'incline devant la démarche et le travail (et tu sais que je ne lésine pas), mais c'est du "entre-deux", réalité et animation qui ne me convainc pas au final.

Autant j'ai été captivé par un film d'animation genre "la plus précieuse des marchandises" qui transmet un message fort, alors que ce n'est que de l'animation, autant là je n'arrive pas à accrocher dans le genre...

Et je dis ça, alors que je m'emm...à essayer de reproduire, avec Sketchup, le village martyr d'Oradour sur Glane, que je ne publierai jamais bien évidemment...

Comme quoi, on est, toi et moi, des obstinés, des conquérants de l'inutile (j'ai failli écrire conquérants en deux :D, mais j'admire le travail...

Lien vers le commentaire
Partager sur d’autres sites

Merci pour ce commentaire. Mon but n'était pas de convaincre mais de tester une technologie naissante. Après avoir connu l'argentique, puis la vidéo analogique et la révolution numérique, ma curiosité est excitée par l'IA générative. J'ai mis trois mois à digérer la nouveauté et je ne suis pas très fier du résultat. Mais je fais quand même remarquer que j'ai été capable, tout seul, de construire des décors et diriger un casting de comédiens avec peu de moyens. Le sujet de la vidéo n'est pas racoleur, je te l'accorde. Je m'intéresse aux superstitions et légendes populaires, non pas que je sois superstitieux ni croyant, mais parce que c'est le miroir du monde dans lequel ont vécu nos ancêtres. Je vois bien les défauts et les limites, mais je suis optimiste.

Une des faiblesses de L'IA est qu'elle n'a pas connaissance de la réalité 3D des choses qu'elle représente. C'est pénalisant, notamment lors des mouvements de caméra. "Mistral" m'a conseillé d'utiliser Sketchup pour numériser le décors de la pièce qui sert de décors. J'ai galéré pour faire ça. je ne suis pourtant pas un débutant dans le domaine. Avant d'être retraité j'ai travaillé dans un bureau d'études automobiles où je modélisais des pièces mécaniques avec "Catia" ou "Euclid". Je te souhaite bien du courage avec Oradour sur Glane.

Lien vers le commentaire
Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
 Partager

  • Le bon plan de DIGIT-PHOTO
    digit-photo

    Le site DIGIT-PHOTO est un spécialiste du secteur photo-vidéo. C’est une enseigne sérieuse que nous vous recommandons. Basé à Metz, Digit-Photo applique le droit français (TVA). Les frais de port sont gratuits dès 40 € d’achat, avec une expédition en 24H. Retourner le matériel est possible et facile.

    Dans votre panier, si vous appréciez le site magazinevideo, entrez le code Créateur MAGVIDEO. Vous paierez le même prix et cela financera des services gratuits comme ce Forum, les News et tous les articles gratuits.

  • DISCUSSIONS RÉCENTES

    • ??? Je ne comprends pas bien. Je répondais à JFL (j'ai omis de préciser @JFL), à l'initiative de ce Post intéressant, pour lui suggérer des idées (vécues) d'alternatives éventuelles à un générateur de voix off. C'est tout.
    • @Thierry P. Je ne sais pas de quand ça date ni de quel outil il s'agissait. Beaucoup d'IA génératives d'images et vidéo proposent aussi un outil de synthèse vocale. Les outils que j'ai cité sont spécialisés et fonctionnent en français. Il y a eu des progrès considérables depuis les balbutiements du début. Le réalisme de la diction et le rendu naturel ont beaucoup évolué et continuent à progresser. On remarque cependant que les locuteurs anglophones ont toujours de l'avance sur les francophones. Ce qui différencie maintenant les solutions disponibles, c'est la possibilité d'intégrer des paramètres d'intonation. On peut généralement régler le timbre (aigu / grave) et la vitesse d'élocution. Il faut aussi faire passer des émotions (exaltation, tristesse, désapprobation, ironie...) Les performances récentes de certains outils, viennent de leur capacité à comprendre le sens du texte et d'adapter leur prononciation en fonction. Il faudra trouver de bons comédiens pour faire mieux. Ce n'est pas très important dans une voix off de documentaire, mais ça devient primordial dans un film de fiction.
    • Idée :  on a parfois dans son entourage des gens (plus jeunes que soi) qui ont parfois un beau timbre de voix, sans être professionnel, et qui, avec de bonnes consignes du réalisateur, peuvent proposer une voix off réussie. On n'y pense pas suffisamment.   Alternative :  J'ai tenté une fois à titre expérimental un "commentaire écrit" (de type tantôt informatif, tantôt poétique), avec des phrases pas trop longues, qui apparaissaient de temps en temps sur un montage de 45 minutes.   Alors que je craignais que ça ne fonctionne pas ou mal, le résultat fut au-delà de mes attentes.   Par contre, il a fallu retravailler le texte plusieurs fois, choisir une belle typo un peu manuscrite, et s'arranger pour que le titrage ne vienne pas s'incruster sur des images un peu longues. Ainsi le spectateur avait à la fois le temps de percevoir l'image et le "commentaire écrit".   J'essaierai de placer une capture d'écran ou un extrait...      
    • On n'est plus au temps du répondeur téléphonique de la sécu. Les outils intelligents apparus récemment donnent d'excellents résultats naturels. Il faut cependant prendre la peine d'apprendre à s'en servir pour maitriser l'intonation, la diction, les émotions et les effets. Il y a une foule de sites qui proposent des solutions intéressantes. Je n'en cite que les deux que je connais le mieux: ElevenLabs : https://elevenlabs.io/app/speech-synthesis/text-to-speech Voiveover : https://studio.speechify.com/https%3A%2F%2Fvoiceover.speechify.com%2Feditor%2F43yJI6SkMw4KGOeEMANZ On peut s'en servir gratuitement pendant un mois d'essais. Il y a des abonnements mensuels à mois de 10 euros. Vous pouvez même cloner la voix de quelqu'un que vous avez enregistré dans les médias. Et lui faire dire votre texte personnel avec la même voix, et la même façon de s'exprimer. Pour un simple commentaire de reportage en voix off, il y a un large choix de voix françaises (hommes ou femmes). Vous pouvez même choisir l'accent (méridional, breton, québécois...). Il faut préciser ce qu'on attend [exaltation], [ironie], [tristesse], [indignation], [étonnement] ... il faut procéder à plusieurs essais pour obtenir ce qu'on souhaite. C'est long et fastidieux, mais ça vaut le coup de s'en donner les moyens.
    • Bonjour,   Je trouve que ça manque toujours de naturel les voix de synthèse... Pour ma part, quand ça en vaut la peine (documentaires notamment) je fais appel à des professionnels... C'est au nombre de mots et en fonction du niveau du pro, les prix restent très acceptables.. Pour info, les deux sites où je fais mon marché https://comeup.com/en/category/voice-over   https://fr.fiverr.com/categories/music-audio/voice-overs
    • Bonjour,  Je suis de retour de voyage avec plein d'images à monter. Pourriez-vous me conseiller sur générateur de voix off (même payant) ? Merci
×
×
  • Créer...

Information importante

j'accepte les cookies de ce site. Conditions d’utilisation