En el dinámico universo de la inteligencia artificial (IA), Google, el gigante de Mountain View, está a punto de dar un paso gigantesco con su proyecto llamado Gemini.
La Multimodalidad de Gemini en Inteligencia Artificial
Este ambicioso proyecto tiene como objetivo convertirse en la «inteligencia artificial más poderosa» del mundo, y podría cambiar drásticamente el panorama de la IA tal como la conocemos.
Una de las características más sobresalientes de Gemini es su capacidad multimodal, pero, esto ¿qué significa?
Básicamente significa que esta IA puede procesar y comprender una variedad de tipos de datos de manera natural, incluyendo texto, imágenes, audio y más.
Sundar Pichai, el CEO de Google, destacó en un reciente discurso que Gemini se diseñó desde cero con esta capacidad multimodal en mente.
Aunque aún está en sus primeras etapas de desarrollo, ya estamos viendo impresionantes habilidades multimodales que no se encuentran en modelos anteriores.
El Desafío para ChatGPT
Este enfoque multimodal de Gemini podría plantear un desafío significativo para ChatGPT, que, a pesar de ser altamente elogiado por su capacidad conversacional, se centra principalmente en procesar texto.
Mientras que empresas en diversas industrias, desde fintech hasta atención médica, están invirtiendo grandes sumas para aprovechar las habilidades conversacionales de ChatGPT, Gemini parece estar dando un paso más allá.
No obstante, Sundar Pichai parece confiado en el enfoque de Google. Cuando se le preguntó si la empresa debería haber lanzado un competidor de ChatGPT antes, Pichai respondió: «No me queda del todo claro que hubiera funcionado tan bien».
La Trayectoria de Google en IA
Google ha estado incrementando su inversión en IA desde 2016, y según Pichai, se requería más tiempo para perfeccionar sus modelos antes de lanzar Gemini.
«Me siento muy cómodo con dónde estamos», afirmó el CEO de Google.
Sin embargo, el camino hacia Gemini no ha estado exento de desafíos. El lanzamiento inicial de Google de su chatbot Bard, basado en LaMDA, en febrero, fue un fracaso después de que fallara en datos básicos sobre el telescopio James Webb.
No obstante, Bard ha recibido una importante actualización para aprovechar el nuevo modelo multimodal PaLM 2 de Google, que ha demostrado superar significativamente a su predecesor.
En comparación con ChatGPT Plus, Bard ofrece traducciones más rápidas y contextuales, y ha demostrado ser competente en la generación de código en más de 20 lenguajes de programación.
Sin embargo, ChatGPT ha respondido a este desafío con su herramienta Advanced Data Analytics, convirtiéndose en una máquina de codificación poderosa.
El Ecosistema de Google en la IA
La integración de Bard con el vasto índice de búsqueda en tiempo real de Google le ha dado una ventaja al responder preguntas sobre eventos actuales.
Además, Google es el principal inversor en Anthropic, la startup detrás de Claude AI, el competidor más poderoso de ChatGPT hasta la fecha.
Claude puede manejar más de 100,000 tokens de contexto, superando a ChatGPT en términos de calidad en muchas ocasiones.
De igual manera, Google está siguiendo un enfoque de «ecosistema» centrado en la IA, integrando capacidades generativas en productos como Docs, Maps y Search.
Recientemente, anunció nuevas actualizaciones de IA destinadas a mejorar la forma en que las personas encuentran y asimilan información en línea.
El Desafío de Gemini
Sin lugar a dudas, con Gemini a punto de hacer su entrada, el imperio de IA de OpenAI podría estar enfrentando su desafío más grande hasta ahora.
Sin embargo, por ahora, Sundar Pichai está contento de tomar un enfoque lento y constante en su búsqueda por liderar la próxima era de la inteligencia artificial.
El futuro de la IA se ve emocionante, y Google está decidido a jugar un papel fundamental en él.
También te podría interesar: