La IA ya crea voces y vídeos que se hacen pasar por humanos. Algunos delincuentes la están usando para engañar a los ciudadanos, pretendiendo ser empresas o instituciones con el fin de conseguir su dinero, como se muestra en este vídeo. A medida que los modelos de voz generativa maduran, los “fallos” que delatan un deepfake (contenido audiovisual sintético o manipulado mediante modelos de IA generativa) son más sutiles. La clave no es oír un robot, sino distinguir la huella algorítmica de una mera mala conexión.
Así lo explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), que ofrece señales prácticas para detectar voces sintéticas en tiempo real, recomienda herramientas y marcas de agua con sus límites, y propone un ABC antifraude para empresas y administraciones, en línea.
“A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles”, advierte el experto. La mayoría de los deepfakes de voz fallan en cómo suena la conversación —prosodia (entonación, acento, ritmo, intensidad), pausas, latencias sospechosamente regulares— más que en la textura del timbre. Por eso, en entornos cotidianos (una llamada urgente, un supuesto aviso del banco, una videollamada improvisada), muchas personas no perciben las anomalías si no saben qué observar y cómo comprobarlo en el momento.
Curto subraya una regla de oro: distinguir artefactos de red de imperfecciones algorítmicas. En una mala conexión, el sonido fluctúa y el desfase audio/vídeo es errático; en el contenido sintético, los “fallos” tienden a ser consistentes (entonación plana o saltos de tono improbables, pausas colocadas donde la gramática no las espera, latencias de respuesta “demasiado iguales”). En una videollamada, las microseñales del rostro —parpadeo, sombras, detalle del cabello y de las orejas— delatan más que el propio lipsync (correspondencia temporal entre movimiento de labios y sonido del habla): cuando es IA, aparecen pequeñas incoherencias visuales que no se explican por compresión o ancho de banda.
Para un test en directo, el experto recomienda romper la inercia del modelo: pedir que repita una frase inesperada, introducir ruido de contexto (una palmada frente al micrófono, teclear fuerte) o intercalar interrupciones cortas para forzar la variación en la prosodia. Si persisten la entonación antinatural o las latencias constantes, se activa el protocolo: callback (devolución de llamada) a un número verificado y comprobación de safe word (palabra clave acordada previamente para autentificar). “La mejor defensa es el escepticismo humano, más verificación por un segundo canal y menor huella pública de tu voz”, resume el profesor de la UOC.
Cinco señales fiables en tiempo real (y cómo no confundirlas con una mala conexión)
1. Prosodia no natural y entonación plana
La voz no fluye emocionalmente: se producen pausas uniformes o mal situadas, tonos monótonos o saltos abruptos. En mala red, oyes cortes o compresión, pero cuando vuelve la señal, el acento y la entonación de base suenan humanos.
2. Artefactos espectrales (“metal”, clics finales)
Siseo o brillo anómalo en colas de palabra; audio demasiado limpio para el entorno. En mala red, el ruido y la calidad fluctúan, mientras que los artefactos de IA tienden a ser consistentes.
3. Desajuste labios-voz en videollamada
Retraso constante o microanomalías (labios que “flotan” sobre los dientes). En mala red hay desfase, pero el movimiento facial sigue siendo orgánico.
4. Microgestos extraños
Parpadeo escaso, mirada fija, sombras e iluminación aplanadas, cabello/orejas con píxeles raros. En mala red verás congelaciones o un macropixelado típico de la compresión, no esos detalles finos.
5. Latencia sospechosa
Demoras demasiado regulares o cambios bruscos sin motivo. Los modelos tardan un tiempo fijo en “escupir” la respuesta completa; la red deficiente provoca latencias irregulares y avisos de “conexión inestable”.
Detectores y marcas de agua: útiles, pero no mágicos
La detección de un audio sintético es una especie de carrera armamentística en constante evolución, explica Curto. Las herramientas disponibles se centran en el análisis forense de artefactos que los modelos de IA aún no han aprendido a eliminar. Estas son las dos soluciones más prometedoras:
1) Detección forense (modelos de clasificación)
Analizan rasgos acústicos (artefactos espectrales, prosodia no natural, etc.) para reconocer patrones de entrenamiento de IA.
- ASVspoof Challenges: conjuntos de referencia (como Logical Access LA, Physical Access PA) y métricas para entrenar/comparar detectores. Las tasas de error suben cuando el spoofing (clonación de voz) usa un modelo distinto al del entrenamiento.
- Herramientas para medios (por ejemplo, VerificAudio): usadas en redacciones (PRISA Media) con doble capa de IA: señales sintéticas + verificación contextual. Precisión no pública, varía por idioma; riesgo de falsos positivos con audio muy comprimido o ruidoso.
- Detectores de plataformas (por ejemplo, ElevenLabs): fiables sobre su propio audio; no generalizan bien a generadores ajenos (Google/Meta).
2) Marcas de agua (watermarking)
Estrategia de etiquetar en origen el contenido generado. Algunas formas de hacerlo son:
- AudioSeal (Meta): marca imperceptible que permite la detección puntual (qué partes se alteraron). Disponible gratuitamente en GitHub. Vulnerable a la compresión MP3, pitch-shift o reverberación; crecen los falsos negativos con posprocesado adversario.
- SynthID (Google): marca multimodal (nació en imagen; se extiende a audio y texto). Busca ser detectable tras ediciones (recorte, compresión). Su eficacia depende de los estándares (ISO/IEC) y la adopción: si el generador no la implementa, no sirve.
Cuatro buenas prácticas (proactivas) para proteger la voz
La mejor defensa es el escepticismo humano (prosodia, contexto, movimiento), complementado con una fuerte verificación de la identidad (códigos clave) y la limitación de la exposición de la huella vocal pública, explica Curto.
En el contexto de la investigación, se estudia cómo crear distorsiones imperceptibles para un humano, pero que confundan los algoritmos de entrenamiento de IA que intentan extraer la huella vocal. La idea es “envenenar” el conjunto de datos de entrenamiento sin afectar la comunicación humana. Este es el futuro de la protección proactiva.
Las siguientes son una serie de buenas prácticas al alcance de todos:

Mas noticias
Qué es la perovskita, el “material maravilloso” que impulsa la revolución de la energía solar
Allanamiento de Xavier Jordán ¿se desmorona su impunidad?
Seis años de bloqueos sobre el subsidio de los combustibles dejan 19 muertos y más de USD 2 000 millones en pérdidas