Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vamos comparar GPT-5 e Claude Opus-4.1 para geração de código:
Hoje, estamos criando um CodeArena, onde você pode comparar dois modelos de geração de código lado a lado.
Pilha de tecnologia:
- @LiteLLM para orquestração
- @Cometml Opik para construir o pipeline de avaliação
- @OpenRouterAI acessar modelos de ponta
- @LightningAI para hospedar CodeArena
Vamos!🚀
Aqui está o fluxo de trabalho:
- Escolha modelos para comparação de geração de código
- Importe um repositório GitHub e ofereça-o como contexto para LLMs
- Use context + query para gerar código de ambos os modelos
- Avalie o código gerado usando o G-Eval da Opik
Vamos implementar isso!
0️⃣ Carregar chaves de API
Nesta demonstração, acessaremos o GPT-5 por meio do openai e o restante dos modelos usando o OpenRouter.
Armazene as chaves necessárias em um arquivo .env para carregar no ambiente.
Verifique isso 👇

1️⃣ Ingerir repositório GitHub
Usamos o GitIngest para converter um repositório GitHub especificado pelo usuário em dados de texto simples e prontos para LLM.
Os LLMs utilizarão esses dados como contexto para gerar código em resposta à consulta do usuário.
Confira isso 👇

2️⃣ Métrica de correção de código
Agora criaremos métricas de avaliação para nossa tarefa usando o G-Eval da Opik.
Essa métrica avalia a qualidade e a exatidão do código gerado comparando-o com um código de verdade fundamental de referência.
Confira isso 👇

3️⃣ Métrica de legibilidade do código
Essa métrica garante que o código siga a formatação adequada e as convenções de nomenclatura consistentes.
Ele também avalia a qualidade dos comentários e docstrings, o que facilita a compreensão do código.
Confira isso 👇

4️⃣ Métrica de práticas recomendadas
Essa métrica garante que o código seja modular, eficiente e implemente o tratamento adequado de erros.
Confira isso 👇

5️⃣ Gerar resposta do modelo
Agora estamos prontos para gerar respostas de ambos os modelos.
Especificamos a base de código ingerida como contexto no prompt e transmitimos as respostas de ambos os modelos em paralelo.
Verifique isso 👇

6️⃣ Avalie o código gerado
Avaliamos as respostas geradas por ambos os modelos usando as métricas mencionadas acima, fornecendo um raciocínio detalhado para cada métrica.
Confira isso👇

7️⃣ Interface do usuário simplificada
Por fim, criamos uma interface de usuário intuitiva do Streamlit que simplifica a comparação e a avaliação de ambos os modelos em uma única interface.
Verifique isso 👇

Hora de testar..
Consulta 1: Crie um servidor MCP que permita que agentes de IA e chatbots leiam código, gerenciem problemas/PRs, analisem repositórios e automatizem fluxos de trabalho no GitHub.
Nas três métricas: Correção, Legibilidade e Práticas recomendadas:
- GPT-5 pontuado: 9
- Calude Opus-4.1 pontuou: 8.67

O CodeArena permite comparar dois modelos. Também comparei brevemente o GPT-5 com o Qwen3-Coder!
Consulta 2: O servidor MCP se conecta à API do Notion, permitindo que a IA gerencie notas, listas de tarefas e bancos de dados para aumentar a produtividade e a organização.
Confira isso 👇

Você pode encontrar todo o código e tudo o que precisa para executar o CodeArena no @LightningAI Studio abaixo!
Dê uma volta:
Finalmente, aqui estão mais 10 avaliações que executei usando o Opik na construção de servidores MCP.
- GPT-5 venceu em 6 casos.
- Claude Opus 4.1 venceu nos 4 restantes
No geral, ambos os modelos são excepcionalmente bons, com GPT-5 marginalmente melhor.
Verifique isso 👇

Se você achou perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar✔️
Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!

8 de ago., 22:31
Vamos comparar GPT-5 e Claude Opus-4.1 para geração de código:
33,7K
Melhores
Classificação
Favoritos