OpenAI presenta GPT Realtime para conversaciones instantƔneas con IA
OpenAI ha presentado su innovador modelo de voz a voz,Ā gpt-realtime, junto a nuevas actualizaciones en la Realtime API, enfocadas en crear agentes conversacionales avanzados para empresas y desarrolladores. Este modelo destaca por una mayor calidad de audio, inteligencia superior y precisión en el seguimiento de instrucciones, ofreciendo voces naturales y expresivas que pueden adaptarse a distintos tonos y emociones, como āprofesional y rĆ”pidoā o āempĆ”tico con acento francĆ©sā. AdemĆ”s, posee una capacidad de interpretación de mensajes complejos y reconocimiento exacto de secuencias alfanumĆ©ricas en varios idiomas, como el espaƱol y el japonĆ©s.
Comprehensión e inteligencia mejoradas
El modelo gpt-realtime comprende mejor las instrucciones, detecta matices no verbales y cambia de idioma en mitad de la conversación, logrando resultados destacados en pruebas internas de razonamiento y detección de secuencias alfanuméricas.
Eficiencia en función y seguimiento de instrucciones
Se han optimizado los mecanismos de llamadas a funciones y adherencia a instrucciones, permitiendo que el modelo ejecute acciones relevantes sin interrumpir la conversación, mejorando tanto la experiencia del usuario como la precisión del sistema.
Integraciones y nuevas posibilidades
La nueva Realtime API ahora permite conectar servidores MCP remotos, usar entradas visuales (imÔgenes, capturas de pantalla) en las sesiones y habilitar integración con redes telefónicas mediante el protocolo SIP. AdemÔs, incluye opciones para guardar y reutilizar prompts, facilitando la implementación y personalización de agentes virtuales.
Seguridad, privacidad y reducción de costes
Se han implementado medidas de seguridad y privacidad, incluyendo residencia de datos en la UE y un descenso del coste por token de audio en la API.
Este avance puede ser la solución perfecta para empresas que buscan automatizar soporte al cliente, asistencia personal y procesos educativos, ya que permite integrar agentes conversacionales flexibles y eficientes capaces de interactuar directamente por voz y adaptarse a cualquier escenario profesional.
Fuente: OpenAI News




