Pruebas de catorce modelos de lenguaje grande para determinar su capacidad para codificar

Pruebas de catorce modelos de lenguaje grande para determinar su capacidad para codificar

Introducción a la prueba de chatbots

He estado rodeado de tecnología durante mucho tiempo, por lo que muy pocas cosas me emocionan y aún menos me sorprenden. Sin embargo, poco después de que Open AI lanzara su ChatGPT, le pedí que escribiera un plugin de WordPress para el sitio de comercio electrónico de mi esposa. Cuando lo hizo y el plugin funcionó, me sorprendió de verdad.
Ese fue el comienzo de mi profunda exploración de los chatbots y la programación asistida por IA. Desde entonces, he sometido a 14 modelos de lenguaje grande (LLM) a cuatro pruebas del mundo real.

Resultados de las pruebas

Desafortunadamente, no todos los chatbots pueden codificar de la misma manera. Han pasado casi dos años desde la primera prueba, y aún ahora, cinco de los 14 LLM que probé no pueden crear plugins que funcionen.
En este artículo, mostraré cómo cada LLM se desempeñó en mis pruebas. Hay dos chatbots que te recomiendo utilizar, pero cuestan $20 por mes. Las versiones gratuitas de los mismos chatbots funcionan lo suficientemente bien como para que probablemente puedas prescindir de pagar. Pero el resto, ya sea de forma gratuita o de pago, no es tan bueno. No arriesgaré mis proyectos de programación con ellos ni te recomendaré que lo hagas, hasta que su rendimiento mejore.

Uso de IA para programación

He escrito mucho sobre el uso de IA para ayudar con la programación. A menos que sea un proyecto pequeño y simple, como el plugin de mi esposa, las IA no pueden escribir aplicaciones o programas completos. Sin embargo, excelan en escribir algunas líneas y no son malas para corregir código.

Pruebas de chatbots individuales

A continuación, veremos cada chatbot individualmente. Discutiré 13 chatbots, aunque la tabla anterior muestra 14 LLM. Los resultados de GPT-4 y GPT-4o se incluyen en ChatGPT Plus.
DeepSeek R1: A diferencia de DeepSeek V3, la versión R1 no mostró sus capacidades de razonamiento en nuestras pruebas de programación.
GitHub Copilot: La integración de GitHub Copilot con VS Code es muy buena, pero el código que escribe a menudo es incorrecto.
Meta AI: El IA de Meta es un IA de propósito general. Como se puede ver en la tabla, falló tres de nuestras cuatro pruebas.
Meta Code Llama: Meta Code Llama es el IA de Meta diseñado específicamente para ayudar con la codificación.
Claude 3.5 Sonnet: Anthropic afirma que la versión 3.5 Sonnet de su chatbot Claude AI es ideal para programación. Después de fallar todas las pruebas excepto una, no estoy tan seguro.
Gemini Advanced: Gemini Advanced es la versión profesional de $20 de su chatbot Gemini (anteriormente Bard).
Microsoft Copilot: Cabría esperar que la empresa con el lema “¡Desarrolladores! ¡Desarrolladores! ¡Desarrolladores!” en su ADN tuviera un IA que se desempeñara mejor en las pruebas de programación.

Conclusión

Los resultados de mis pruebas fueron bastante sorprendentes, especialmente considerando las grandes inversiones de Microsoft y Google. Sin embargo, esta área de innovación está mejorando a una velocidad vertiginosa, así que volveremos con pruebas actualizadas y resultados con el tiempo. Es importante tener en cuenta que los chatbots pueden ser útiles para tareas específicas, pero es fundamental evaluar su rendimiento y elegir el que mejor se adapte a tus necesidades. Si has utilizado alguno de estos chatbots para programación, ¿cuál ha sido tu experiencia? Comparte tus comentarios a continuación.