IA y Tecnología

Google DeepMind lanza el modelo de voz IA 'Gemini 3.1 Flash Live'

Menor latencia y mayor precisión buscan hacer las conversaciones de voz en tiempo real más naturales y fiables

Elena Volkov·2026년 3월 26일 목 06:23·3 min de lectura·

Gemini 3.1 Flash Live: Making audio AI more natural and reliable

Resumen

•Google DeepMind lanzó Gemini 3.1 Flash Live, un modelo de voz IA con menor latencia y mayor precisión.
•El modelo busca mejorar simultáneamente la naturalidad y la fiabilidad en interacciones de voz en tiempo real.
•El lanzamiento intensifica la competencia con OpenAI, Meta y otros actores que pugnan por el liderazgo en IA de voz.

Google DeepMind presenta su último modelo de voz

Google DeepMind ha lanzado Gemini 3.1 Flash Live, su más reciente modelo de inteligencia artificial (IA) de voz en tiempo real. La actualización se centra en dos mejoras simultáneas: menor latencia de respuesta y mayor precisión, ambas orientadas a hacer las interacciones de voz más fluidas, naturales y confiables.

Por qué esta actualización es relevante

En el campo de la IA de voz, la naturalidad y la baja latencia han sido históricamente consideradas opuestas. Una mayor precisión del modelo solía implicar respuestas más lentas, mientras que ganar velocidad degradaba la calidad del resultado. Gemini 3.1 Flash Live afirma haber mejorado ambas a la vez, lo que constituye un avance técnicamente significativo.

La interacción de voz en tiempo real sustenta una creciente variedad de aplicaciones: asistentes virtuales, centros de llamadas automatizados, plataformas educativas y sistemas de IA agéntica. Incluso una reducción de pocos cientos de milisegundos en la latencia puede alterar notablemente la percepción del usuario. El consenso de la industria sitúa en 300 ms el umbral para que una conversación se sienta natural.

El contexto de este lanzamiento es una competencia que se intensifica. El modo de voz avanzado de OpenAI, la renovada Alexa de Amazon y las crecientes inversiones de Meta en IA de voz han convertido las interfaces de audio en el nuevo campo de batalla de la IA. El movimiento de Google DeepMind señala que tiene intención de competir de forma agresiva en este frente.

¿Qué cambió respecto a la versión anterior?

Según la información publicada por Google DeepMind, Gemini 3.1 Flash Live representa las siguientes mejoras direccionales frente a su predecesor:

Característica	Versión anterior	Gemini 3.1 Flash Live	Dirección
Latencia de respuesta	Relativamente alta	Reducida (baja latencia)	Disminuida
Precisión de respuesta	Estándar	Mejorada	Aumentada
Naturalidad de la voz	Limitada	Más fluida	Mejorada
Fiabilidad	Estándar	Mejorada	Aumentada

Aún no se han publicado cifras específicas de benchmarks en el comunicado oficial, pero Google DeepMind destacó las "interacciones de voz más fluidas, naturales y precisas" como el eje central de la mejora.

[Análisis de expertos] ¿Hacia dónde se dirige la carrera de IA de voz?

En 2026, el mercado de IA de voz ha avanzado bien más allá del reconocimiento de comandos simples, hacia diálogos contextuales de múltiples turnos. El lanzamiento de Gemini 3.1 Flash Live puede interpretarse como el intento de Google por establecer una ventaja técnica en este punto de inflexión.

La reducción de latencia es especialmente relevante en aplicaciones basadas en agentes. Cuando los sistemas de IA ejecutan tareas complejas y de múltiples pasos, la velocidad de cada etapa determina directamente la eficiencia del flujo de trabajo.

Observadores del sector sugieren que es probable que este movimiento forme parte de una estrategia a largo plazo para construir el ecosistema Gemini en torno a la voz como interfaz principal, con la integración en la plataforma Android y la evolución de Google Assistant como escenarios clave.

La competencia sigue siendo intensa. El modo de voz GPT-4o de OpenAI y las capacidades de síntesis de ElevenLabs ya tienen una fuerte presencia en el mercado. Si Gemini 3.1 Flash Live logra demostrar una diferenciación significativa en la experiencia del usuario real es, probablemente, la prueba decisiva.

#deepmind-series #gemini-3.1 #음성AI #LLM #저지연 #AI인터페이스 #실시간AI