> ## Documentation Index
> Fetch the complete documentation index at: https://docs.zevor.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# Foto que habla con tu audio propio

> Convierte una foto fija en un vídeo donde la cara dice exactamente lo que tú grabaste. Receta para voiceovers, anuncios y testimonios con avatar IA.

Esta receta combina una foto (real o avatar IA) con un **audio que tú
grabas**, y devuelve un MP4 con la cara hablando y los labios
sincronizados. Ideal para anuncios, voiceovers de marca o testimonios.

## Resultado

* 1 vídeo vertical 9:16 donde tu avatar (o cualquier foto de persona)
  dice exactamente lo que grabaste, con labios sincronizados.

## Tiempo y créditos estimados

* **Tiempo total**: \~5-10 minutos (depende de la duración del audio).
* **Créditos**: 4 cr por segundo real de habla. Un voiceover de 15 s
  \= 60 cr.

## Pasos

<Steps>
  <Step title="Graba el audio">
    En tu móvil o con un mic limpio. Lo importante: que se entienda y
    que no haya eco ni ruido. MP3 o WAV. Habla natural, frases cortas.

    Si no tienes audio, sáltate este paso y usa TTS en el siguiente.
  </Step>

  <Step title="Prepara la foto">
    Una imagen vertical de la persona o el avatar. Frontal o ¾, cara
    bien iluminada. Puede ser:

    * Una de las variaciones de tu [AI Influencer](/es/recetas/ai-influencer).
    * Una foto real (tuya o de cliente, con permiso).
    * Una imagen generada con [Imagen](/es/modos/imagen).
  </Step>

  <Step title="Lleva todo a Foto que habla">
    En [zevor.ai/foto-que-habla](https://zevor.ai/foto-que-habla):

    * Sube la foto.
    * Pestaña **Audio**: sube tu MP3/WAV (o pega un enlace si lo
      tienes online).
    * Alternativa: pestaña **Texto**, escribe lo que quieres que diga
      y elige una voz TTS.
  </Step>

  <Step title="Genera y descarga">
    Tarda entre 1 y 3 minutos. Descarga el MP4. La voz queda
    sincronizada con los labios; el resultado se publica directo.
  </Step>
</Steps>

## Buenas prácticas

* **Audio limpio**: si tu grabación tiene ruido, los labios pueden
  moverse a destiempo en sitios concretos. Grabaciones en sitio
  silencioso o un mic decente cambian mucho el resultado.
* **Frases naturales** de 5-10 segundos. Bloques de 30 s funcionan
  pero sienten más artificiales.
* **Misma foto = misma identidad**. Si haces varios voiceovers con la
  misma cara, el público los asocia. Es el mismo principio que un AI
  influencer (ver [esa receta](/es/recetas/ai-influencer)).
* **Lateral o perfil pierde calidad**: si tu foto está muy de lado,
  la sincronización de labios pierde detalle.

## Errores comunes

* **Audio en muy mala calidad**: la sincronización depende de lo que
  oye. Re-graba antes de gastar créditos.
* **Foto con varias caras**: la IA elige una. Recorta para que solo
  esté la persona que va a hablar.

<Note>
  Más detalle de límites y formatos en
  [Foto que habla](/es/herramientas-video/foto-que-habla).
</Note>
