Google lanza tres nuevas versiones de Gemini 1.5 para recopilar comentarios de desarroll

Google lanza tres nuevas versiones de Gemini 1.5 para recopilar comentarios de desarroll

Introducción a Gemini 1.5

Google está expandiendo su familia de modelos de inteligencia artificial (IA) más poderosa, Gemini 1.5, con nuevas variantes. El lunes, el líder de productos de Google AI Studio, Logan Kilpatrick, compartió en una red social que la empresa había lanzado tres nuevas versiones experimentales de Gemini: un modelo más pequeño, Gemini 1.5 Flash-8B; un modelo Gemini 1.5 Pro más “fuerte”; y el Gemini 1.5 Flash “significativamente mejorado”. Kilpatrick explicó que Google está “lanzando modelos experimentales para recopilar comentarios y poner nuestras últimas actualizaciones en manos de los desarrolladores”.

Características de los nuevos modelos

  • El primer modelo, 1.5 Flash-8B, es una versión de ocho mil millones de parámetros del nuevo modelo 1.5 Flash, y se puede utilizar para “todo, desde casos de uso multimodales de alto volumen hasta tareas de resumen de contexto largo”, según Kilpatrick.
  • La nueva versión de Pro incluye mejoras en matemáticas, prompts complejos y codificación, mientras que la nueva versión de Flash ahora se desempeña mejor en ciertos benchmarks internos.
  • Kilpatrick dijo que Gemini 1.5 Pro Exp 0827 (por su día de lanzamiento, 27 de agosto) reemplazará el último modelo lanzado, 0801. A partir del 3 de septiembre, 0801 se redirigirá en la API de Gemini al modelo 0827.

Desempeño y comparación

Poco después de su lanzamiento, el último Gemini 1.5 Pro se clasificó como el número 2 y Flash como el número 6 en general en la Chatbot Arena, manteniéndolos esencialmente codo a codo con GPT-4o y GPT-4o mini, respectivamente. Los dos modelos superaron a Claude 3.5 Sonnet, Grok 2, Grok 2 mini y Llama 3.1.

Capacidad y uso de Gemini 1.5

Los modelos experimentales se unen a la familia Gemini 1.5, que está diseñada para manejar ventanas de contexto muy largas. En un informe técnico de principios de este mes, el equipo de DeepMind calificó sus capacidades de “sin precedentes entre los modelos de lenguaje grande (LLM) contemporáneos”, afirmando que Gemini 1.5 puede procesar entradas multimodales como “colecciones completas de documentos, múltiples horas de video y casi cinco días de audio”.

Uso potencial y recepción

El equipo agregó que estos nuevos lanzamientos continúan la tendencia de los modelos de “recuperación casi perfecta (>99%) hasta al menos 10M tokens”, en comparación con los 200.000 tokens de Claude 3.0 y los 128.000 tokens de GPT-4 Turbo, respectivamente. El informe también mencionó posibles casos de uso, destacando la capacidad de Gemini 1.5 para ayudar a los profesionales a ahorrar hasta el 75% de su tiempo en tareas en 10 categorías de trabajo, entre algunas habilidades “frontier” sorprendentes: “Cuando se le da un manual de gramática para Kalamang, un idioma con menos de 200 hablantes en todo el mundo, el modelo aprende a traducir del inglés al Kalamang a un nivel similar al de una persona que aprendió del mismo contenido”, señala el informe.

Conclusión

La recepción de los modelos experimentales ha sido mixta, con algunos usuarios elogiando los lanzamientos rápidos de Google mientras que otros, sin impresionar, pidieron el lanzamiento de Gemini 2.0 en su lugar. Cuando se le preguntó por un usuario de la red social sobre benchmarks, Kilpatrick respondió que la empresa planea lanzar una versión para uso de producción “en las próximas semanas, ¡esperemos que venga con evaluaciones!”. Los usuarios pueden probar los tres modelos de forma gratuita en Google AI Studio y la API de Gemini hoy en día. Esto marca un paso importante en el desarrollo de la inteligencia artificial, ofreciendo capacidades avanzadas para una variedad de aplicaciones y mejorando significativamente la eficiencia en diversas tareas.