> ## Documentation Index
> Fetch the complete documentation index at: https://docs.zevor.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# Foto que habla

> Pones una foto y tu audio (o texto), y la cara habla con los labios sincronizados. Para reels, anuncios, voiceovers con personaje fijo o avatar IA.

Foto que habla anima una imagen para que el sujeto **diga lo que tú
quieras**, con los labios sincronizados al audio. Funciona con fotos
reales y con avatares generados con IA.

## Para qué sirve

* Hacer hablar a tu avatar IA (mismo personaje, distintos voiceovers).
* Reels donde quieres mostrar a alguien hablando sin grabar a una
  persona real cada vez.
* Anuncios cortos con un testimonio o frase impactante.
* Convertir un retrato en un vídeo de presentación.

## Qué necesitas

<CardGroup cols={2}>
  <Card title="Una foto" icon="image">
    Retrato bien iluminado, cara visible y bien enfocada. JPG/PNG.
  </Card>

  <Card title="El audio o el texto" icon="microphone">
    Sube un MP3/WAV con la voz, o escribe el texto y elige una voz IA
    (TTS).
  </Card>
</CardGroup>

## Cómo funciona

<Steps>
  <Step title="Sube la foto">
    Una sola imagen, vertical o cuadrada funciona bien para 9:16.
  </Step>

  <Step title="Pon la voz">
    Dos vías:

    * **Audio propio**: graba o sube tu MP3/WAV. La voz es tuya,
      perfecta cuando quieres un voiceover concreto.
    * **TTS**: escribes el texto y eliges una de las voces IA. Más
      rápido cuando no tienes audio listo.
  </Step>

  <Step title="Genera y descarga">
    La generación dura entre 1 y 3 minutos según la duración del audio.
    El resultado es un MP4 con la cara hablando y el audio sincronizado.
  </Step>
</Steps>

## Coste

| Duración del habla | Coste aproximado |
| ------------------ | ---------------- |
| 5 s                | 20 cr            |
| 10 s               | 40 cr            |
| 20 s               | 80 cr            |
| 30 s               | 120 cr           |

Coste por segundo **real** de habla (4 cr/s). Si pasas texto en TTS,
el sistema calcula la duración de la voz y cobra exactamente eso (los
excesos se reembolsan tras la generación).

## Buenas prácticas

* **Foto frontal o ¾**: la sincronización de labios funciona mejor
  cuando la cara mira a cámara. Perfil pierde detalle.
* **Audio limpio**: si la voz tiene ruido de fondo, los labios pueden
  moverse a destiempo. Graba en un sitio silencioso o usa TTS.
* **Texto corto y natural** cuando uses TTS. Frases largas suenan más
  artificiales que dos frases cortas seguidas.
* Combina con [Personajes](/es/modos/personajes) para reutilizar
  siempre la misma cara IA en todos tus vídeos hablados.

## Limitaciones

* Una sola persona en la foto. Si hay varias, la IA elige una.
* Sin idiomas raros: cualquier idioma con TTS habitual funciona.

<Note>
  Prueba: [zevor.ai/foto-que-habla](https://zevor.ai/foto-que-habla).
</Note>