GPT-4o de OpenAI: una IA multimodal que escucha, ve y genera imágenes en tiempo real
Gemini de Google: integración en servicios como Gmail y YouTube con gafas inteligentes
Competencia por la supremacía en IA: capacidades avanzadas y aplicaciones innovadoras
OpenAI presentó GPT-4o, una IA multimodal que puede ver, oír, hablar y generar imágenes en tiempo real, interactuando de forma avanzada con los humanos. Google lanzó el proyecto Astra, integrando su IA en servicios como Gmail y YouTube y presentando gafas inteligentes con Gemini. Ambas compañías buscan liderar el futuro de la inteligencia artificial con estas innovaciones.
OpenAI ha presentado GPT-4o, un modelo de inteligencia artificial multimodal que puede ver, oír, hablar y generar imágenes en tiempo real, con capacidades avanzadas de interacción humana. Por su parte, Google ha lanzado el proyecto Astra, integrando la IA en sus servicios y presentando las gafas inteligentes con Gemini. Estas innovaciones prometen transformar la forma en que interactuamos con la tecnología.
Con solo tres letras, “Her”, Sam Altman resumía en la red social X el lanzamiento con el que OpenAI volvía a revolucionar el mundo de la inteligencia artificial. En la presentación, Mira Murati, Mark Chen y Barret Zopf conversaron con GPT-4o, el nuevo modelo de IA, como si fuera un miembro más del equipo. La demo mostró que la IA podía corregir sus errores y reírse de ellos, personificada en una voz capaz de hacer inflexiones y dramatizar su tono.
GPT-4o posee una latencia cercana a cero y puede resolver problemas matemáticos, contar historias o traducir simultáneamente al italiano. OpenAI ha entrenado este modelo multimodal para generar textos y también ver, oír, hablar y generar imágenes, llamándolo GPT-4 Omni por su versatilidad. Es gratuito para todos los usuarios, aunque con límites en el número de interacciones.
Solo 24 horas después, Google presentó su propio modelo multimodal, proyecto Astra, que permite al usuario hablar y analizar imágenes de vídeo en tiempo real. Google ha integrado esta IA en unas gafas inteligentes dotadas con cámaras, permitiendo que Astra vea lo mismo que el usuario. Aunque la presentación de Google fue menos impresionante y las respuestas de Astra menos naturales, Google cuenta con la fortaleza de su ecosistema, implementando su IA en servicios como YouTube, Gmail o Google Docs.
Gemini puede buscar en el correo del usuario todas las facturas del año y almacenarlas automáticamente en una carpeta en la nube, o resumir vídeos de YouTube de varias horas de duración. Google también planea integrar Gemini en la barra lateral de las herramientas de Google Workspace y en la aplicación de fotos de Google, mejorando la productividad y gestión de tareas cotidianas.
Tanto OpenAI como Google han mostrado que las inteligencias artificiales actuales ya pueden escribir, hablar, escuchar, ver y generar imágenes mejor que un humano. El próximo paso será que puedan actuar de manera omnipresente, interactuando con el usuario en todo lo que haga.
Noticia elaborada a partir del artículo original publicado en Heraldo