SPARK — Avatars et scripts

Scripts et Avatars IA

SPARK utilise une architecture de prompt divisée qui sépare automatiquement le contenu visuel du contenu audio pour un rendu optimal. Combinez images de référence, LoRA et contrôles caméra pour des avatars vidéo réalistes.

Architecture de prompt divisée

L'architecture de prompt de SPARK sépare automatiquement le contenu visuel et audio pour éviter les artefacts de texte dans la vidéo générée.

Prompt visuel

Le prompt visuel décrit la scène que l'IA doit générer. SPARK retire automatiquement les dialogues, citations et textes pour empêcher le modèle de rendre du texte brouillé dans la vidéo.

• Décrivez le décor, les personnages, l'action
• Les dialogues sont automatiquement retirés
• Le modèle se concentre sur le rendu visuel pur

Audio prompt (script)

Le script complet est envoyé séparément pour la synthèse vocale. Le dialogue est prononcé par la voix IA et synchronisé avec la vidéo.

• Dialogues et narration en langage naturel
• Multi-langues (français, anglais)
• Synthèse vocale naturelle

Image de référence

Uploadez une image pour guider le style visuel de la vidéo. L'image est utilisée comme condition de départ (first-frame conditioning) par le modèle LTX 2.3.

Utilisation d'une image de référence

Style visuel : L'image définit le style, les couleurs et l'esthétique de la vidéo
Personnage : Utilisez un portrait pour générer une vidéo avec ce personnage
Décor : Fournissez un environnement pour ancrer la scène
Formats : JPG, PNG, WebP acceptés

Modèles LoRA

Les LoRA (Low-Rank Adaptation) sont des modèles spécialisés qui améliorent des aspects spécifiques de la génération vidéo sans recharger le modèle principal.

LoRA Talking-Head

Spécialisé dans les vidéos de personnages parlants. Améliore la cohérence de l'identité faciale entre les clips et les mouvements de bouche.

• Cohérence identité multi-clips
• Mouvements de bouche naturels
• Téléchargement auto depuis HuggingFace

LoRA Transition

Améliore les transitions entre scènes et les effets visuels. Idéal pour les vidéos marketing avec des changements de plan.

• Transitions cinématographiques
• Effets de mouvement de caméra
• Compatible avec le multi-clips

Contrôles caméra avancés

Pan (panoramique) : Mouvement horizontal de -1.0 à 1.0. Valeur négative = gauche, positive = droite.
Tilt (inclinaison) : Mouvement vertical de -1.0 à 1.0. Valeur négative = bas, positive = haut.
Zoom : Facteur de 0.5 à 2.0. Valeurs <1 = dézoom, >1 = zoom avant.
CFG Scale : Fidélité au prompt de 1.0 à 10.0. Plus élevé = plus fidèle au texte.
Negative prompt : Éléments à exclure (texte, artefacts, flou).
Seed : Nombre pour la reproductibilité du rendu.

Questions fréquentes

Comment fonctionne la séparation prompt visuel / audio ?

SPARK retire automatiquement les dialogues du prompt visuel pour éviter le texte parasite. Le script complet est envoyé séparément pour la synthèse vocale.

Qu'est-ce qu'un LoRA talking-head ?

Un modèle spécialisé qui améliore la génération de personnages parlants avec cohérence d'identité et mouvements de bouche naturels.

Peut-on utiliser une image de référence ?

Oui. Uploadez un JPG, PNG ou WebP pour guider le style visuel via le first-frame conditioning du modèle LTX 2.3.

Créez vos avatars vidéo IA

Demander un rappel Retour à SPARK