Resultado
- 1 vídeo vertical 9:16 donde tu avatar (o cualquier foto de persona) dice exactamente lo que grabaste, con labios sincronizados.
Tiempo y créditos estimados
- Tiempo total: ~5-10 minutos (depende de la duración del audio).
- Créditos: 4 cr por segundo real de habla. Un voiceover de 15 s = 60 cr.
Pasos
Graba el audio
En tu móvil o con un mic limpio. Lo importante: que se entienda y
que no haya eco ni ruido. MP3 o WAV. Habla natural, frases cortas.Si no tienes audio, sáltate este paso y usa TTS en el siguiente.
Prepara la foto
Una imagen vertical de la persona o el avatar. Frontal o ¾, cara
bien iluminada. Puede ser:
- Una de las variaciones de tu AI Influencer.
- Una foto real (tuya o de cliente, con permiso).
- Una imagen generada con Imagen.
Lleva todo a Foto que habla
En zevor.ai/foto-que-habla:
- Sube la foto.
- Pestaña Audio: sube tu MP3/WAV (o pega un enlace si lo tienes online).
- Alternativa: pestaña Texto, escribe lo que quieres que diga y elige una voz TTS.
Buenas prácticas
- Audio limpio: si tu grabación tiene ruido, los labios pueden moverse a destiempo en sitios concretos. Grabaciones en sitio silencioso o un mic decente cambian mucho el resultado.
- Frases naturales de 5-10 segundos. Bloques de 30 s funcionan pero sienten más artificiales.
- Misma foto = misma identidad. Si haces varios voiceovers con la misma cara, el público los asocia. Es el mismo principio que un AI influencer (ver esa receta).
- Lateral o perfil pierde calidad: si tu foto está muy de lado, la sincronización de labios pierde detalle.
Errores comunes
- Audio en muy mala calidad: la sincronización depende de lo que oye. Re-graba antes de gastar créditos.
- Foto con varias caras: la IA elige una. Recorta para que solo esté la persona que va a hablar.
Más detalle de límites y formatos en
Foto que habla.
