Scripts et Avatars IA
SPARK utilise une architecture de prompt divisée qui sépare automatiquement le contenu visuel du contenu audio pour un rendu optimal. Combinez images de référence, LoRA et contrôles caméra pour des avatars vidéo réalistes.
Architecture de prompt divisée
L'architecture de prompt de SPARK sépare automatiquement le contenu visuel et audio pour éviter les artefacts de texte dans la vidéo générée.
Prompt visuel
Le prompt visuel décrit la scène que l'IA doit générer. SPARK retire automatiquement les dialogues, citations et textes pour empêcher le modèle de rendre du texte brouillé dans la vidéo.
- • Décrivez le décor, les personnages, l'action
- • Les dialogues sont automatiquement retirés
- • Le modèle se concentre sur le rendu visuel pur
Audio prompt (script)
Le script complet est envoyé séparément pour la synthèse vocale. Le dialogue est prononcé par la voix IA et synchronisé avec la vidéo.
- • Dialogues et narration en langage naturel
- • Multi-langues (français, anglais)
- • Synthèse vocale naturelle
Image de référence
Uploadez une image pour guider le style visuel de la vidéo. L'image est utilisée comme condition de départ (first-frame conditioning) par le modèle LTX 2.3.
Utilisation d'une image de référence
- Style visuel : L'image définit le style, les couleurs et l'esthétique de la vidéo
- Personnage : Utilisez un portrait pour générer une vidéo avec ce personnage
- Décor : Fournissez un environnement pour ancrer la scène
- Formats : JPG, PNG, WebP acceptés
Modèles LoRA
Les LoRA (Low-Rank Adaptation) sont des modèles spécialisés qui améliorent des aspects spécifiques de la génération vidéo sans recharger le modèle principal.
LoRA Talking-Head
Spécialisé dans les vidéos de personnages parlants. Améliore la cohérence de l'identité faciale entre les clips et les mouvements de bouche.
- • Cohérence identité multi-clips
- • Mouvements de bouche naturels
- • Téléchargement auto depuis HuggingFace
LoRA Transition
Améliore les transitions entre scènes et les effets visuels. Idéal pour les vidéos marketing avec des changements de plan.
- • Transitions cinématographiques
- • Effets de mouvement de caméra
- • Compatible avec le multi-clips
Contrôles caméra avancés
- Pan (panoramique) : Mouvement horizontal de -1.0 à 1.0. Valeur négative = gauche, positive = droite.
- Tilt (inclinaison) : Mouvement vertical de -1.0 à 1.0. Valeur négative = bas, positive = haut.
- Zoom : Facteur de 0.5 à 2.0. Valeurs <1 = dézoom, >1 = zoom avant.
- CFG Scale : Fidélité au prompt de 1.0 à 10.0. Plus élevé = plus fidèle au texte.
- Negative prompt : Éléments à exclure (texte, artefacts, flou).
- Seed : Nombre pour la reproductibilité du rendu.
Questions fréquentes
Comment fonctionne la séparation prompt visuel / audio ?
SPARK retire automatiquement les dialogues du prompt visuel pour éviter le texte parasite. Le script complet est envoyé séparément pour la synthèse vocale.
Qu'est-ce qu'un LoRA talking-head ?
Un modèle spécialisé qui améliore la génération de personnages parlants avec cohérence d'identité et mouvements de bouche naturels.
Peut-on utiliser une image de référence ?
Oui. Uploadez un JPG, PNG ou WebP pour guider le style visuel via le first-frame conditioning du modèle LTX 2.3.
