Voice AI ha experimentado un cambio generacional en los últimos dos años. El pipeline antiguo — voz a texto, luego procesar el texto con un LLM, luego texto a voz — introducía latencia notable en cada etapa. Un viaje de ida y vuelta podía tomar de dos a tres segundos, lo cual se siente como una eternidad en una conversación. La nueva generación de modelos, como el modo de voz de GPT-4o de OpenAI y la API conversacional de ElevenLabs, procesan audio nativamente. El modelo escucha tu voz como tokens de audio, razona sobre el significado y genera tokens de habla directamente — sin paso intermedio de texto. Esto reduce la latencia a unos pocos cientos de milisegundos, lo cual cruza el umbral donde la interacción se siente genuinamente en tiempo real. Si alguna vez has usado un asistente de voz que se sentía lento y robótico versus uno que se sentía ágil y natural, esa diferencia arquitectónica es generalmente la razón.
El TTS moderno de proveedores como ElevenLabs, Cartesia y PlayHT produce habla que la mayoría de los oyentes no puede distinguir de una grabación humana real. Los modelos capturan respiración, ritmo, énfasis e incluso tono emocional. La clonación de voz — entrenar un modelo TTS con unos pocos minutos del habla de alguien — funciona perturbadoramente bien. Esta es una capacidad genuinamente de doble filo. La narración de audiolibros, herramientas de accesibilidad y doblaje multilingüe se benefician enormemente. Pero el phishing por voz, las llamadas deepfake y la suplantación no autorizada son amenazas reales. La mayoría de los proveedores ahora requieren verificación de consentimiento explícito antes de clonar una voz, y herramientas de detección de empresas como Pindrop y Resemble se están convirtiendo en parte del stack de defensa. Si estás construyendo algo con voces clonadas, integra el consentimiento y la divulgación en tu producto desde el día uno.
Del lado del reconocimiento, Whisper de OpenAI fue el momento decisivo que hizo el STT de alta calidad accesible para todos. Antes de Whisper, la transcripción precisa requería APIs cloud costosas o motores propietarios en el dispositivo. Ahora puedes correr Whisper localmente, y servicios como AssemblyAI y Deepgram ofrecen transcripción en streaming que maneja acentos, cambio de código entre idiomas y ambientes ruidosos con precisión notable. Las aplicaciones prácticas están en todas partes: transcripción y resumen de reuniones, subtitulado cerrado en tiempo real, interfaces controladas por voz para ambientes con manos ocupadas como quirófanos o pisos de fábrica, y servicio al cliente multilingüe donde un cliente habla mandarín y el agente ve texto en inglés en tiempo real.
Si estás construyendo un producto potenciado por voz, las decisiones clave son presupuesto de latencia, estructura de costos y cómo manejas interrupciones. Presupuesto de latencia significa qué tan rápido necesitas el primer byte de audio de vuelta después de que el usuario deja de hablar — menos de 500ms se siente conversacional, más de un segundo se siente como hablar con una cola de espera. La estructura de costos importa porque transmitir voz a través de una API WebSocket en tiempo real es significativamente más costoso por minuto que la transcripción por lotes. Y el manejo de interrupciones — qué pasa cuando el usuario habla sobre la IA — es lo que separa demos de juguete de productos utilizables. Los mejores agentes de voz detectan la interrupción, detienen su salida actual inmediatamente y procesan la nueva entrada sin perder contexto. Lograr esto bien requiere gestión cuidadosa del estado y generalmente un proxy WebSocket del lado del servidor que pueda controlar el flujo de audio. Es un trabajo minucioso, pero es la diferencia entre una experiencia de voz que la gente tolera y una que realmente prefiere sobre escribir.