Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Comparémoslos GPT-5 y Claude Opus-4.1 para la generación de código:
Hoy, estamos construyendo un CodeArena, donde puedes comparar cualquier par de modelos de generación de código uno al lado del otro.
Tecnología:
- @LiteLLM para orquestación
- Opik de @Cometml para construir el pipeline de evaluación
- @OpenRouterAI para acceder a modelos de vanguardia
- @LightningAI para alojar CodeArena
¡Vamos!🚀
Aquí está el flujo de trabajo:
- Elegir modelos para la comparación de generación de código
- Importar un repositorio de GitHub y ofrecerlo como contexto a los LLMs
- Usar contexto + consulta para generar código de ambos modelos
- Evaluar el código generado utilizando G-Eval de Opik
¡Implementemos esto!
0️⃣ Cargar claves de API
En esta demostración, accederemos a GPT-5 a través de openai y al resto de los modelos usando OpenRouter.
Guarda las claves requeridas en un archivo .env para cargarlas en el entorno.
Revisa esto 👇

1️⃣ Ingestar repositorio de GitHub
Usamos GitIngest para convertir un repositorio de GitHub especificado por el usuario en datos de texto simples, listos para LLM.
Los LLM utilizarán estos datos como contexto para generar código en respuesta a la consulta del usuario.
Mira esto 👇

2️⃣ Métrica de corrección de código
Ahora crearemos métricas de evaluación para nuestra tarea utilizando G-Eval de Opik.
Esta métrica evalúa la calidad y corrección del código generado al compararlo con un código de referencia verdadero.
Mira esto 👇

3️⃣ Métrica de legibilidad del código
Esta métrica asegura que el código se adhiera a un formato adecuado y a convenciones de nomenclatura consistentes.
También evalúa la calidad de los comentarios y las cadenas de documentación, que hacen que el código sea fácil de entender.
Mira esto 👇

4️⃣ Mejores prácticas métrica
Esta métrica asegura que el código sea modular, eficiente y que implemente un manejo de errores adecuado.
Mira esto 👇

5️⃣ Generar respuesta del modelo
Ahora estamos listos para generar respuestas de ambos modelos.
Especificamos la base de código ingerida como contexto en el aviso y transmitimos las respuestas de ambos modelos en paralelo.
Revisa esto 👇

6️⃣ Evalúa el código generado
Evaluamos las respuestas generadas por ambos modelos utilizando las métricas mencionadas anteriormente, proporcionando un razonamiento detallado para cada métrica.
Mira esto👇

7️⃣ Interfaz de Streamlit
Finalmente, creamos una interfaz intuitiva de Streamlit que simplifica la comparación y evaluación de ambos modelos dentro de una única interfaz.
Revisa esto 👇

Hora de probar..
Consulta 1: Construir un servidor MCP que permita a los agentes de IA y chatbots leer código, gestionar problemas/PRs, analizar repositorios y automatizar flujos de trabajo en GitHub.
A través de las tres métricas: Corrección, Legibilidad y Mejores prácticas:
- GPT-5 obtuvo: 9
- Calude Opus-4.1 obtuvo: 8.67

CodeArena te permite comparar cualquier dos modelos. ¡También comparé brevemente GPT-5 contra Qwen3-Coder!
Consulta 2: El servidor MCP se conecta a la API de Notion, permitiendo que la IA gestione notas, listas de tareas y bases de datos para mejorar la productividad y la organización.
Mira esto 👇

¡Puedes encontrar todo el código y todo lo que necesitas para ejecutar CodeArena en el @LightningAI Studio a continuación!
¡Pruébalo!
Finalmente, aquí hay 10 evaluaciones más que realicé usando Opik para construir servidores MCP.
- GPT-5 ganó en 6 casos.
- Claude Opus 4.1 ganó en los 4 restantes.
En general, ambos modelos son excepcionalmente buenos, con GPT-5 ligeramente mejor.
Revisa esto 👇

Si lo encontraste interesante, compártelo con tu red.
Encuéntrame → @akshay_pachaar✔️
¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!

8 ago, 22:31
Comparémoslos GPT-5 y Claude Opus-4.1 para la generación de código:
33.3K
Populares
Ranking
Favoritas