Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos anunciando cline-bench, un benchmark de código abierto real para codificación agente.
Cline-bench se construye a partir de tareas de ingeniería reales de desarrolladores participantes donde los modelos de frontera fallaron y los humanos tuvieron que intervenir.
Cada tarea aceptada se convierte en un entorno RL totalmente reproducible con una instantánea inicial del repositorio, un prompt real y pruebas de verdad a partir del código que finalmente se envió.
Para laboratorios e investigadores, esto significa:
> puedes evaluar modelos en trabajos de ingeniería genuinos, no en puzles de leetcode.
> tienes entornos compatibles con Harbor y herramientas modernas de evaluación para comparar lado a lado.
> puedes usar las mismas tareas para SFT y RL, así que la formación y la evaluación se mantienen ancladas en flujos de trabajo reales de ingeniería.
Hoy estamos abriendo las contribuciones y empezando a recopilar tareas a través del proveedor Cline. La participación es opcional y limitada a repositorios de código abierto.
Cuando una tarea difícil bloquea un modelo y tú intervienes, ese fracaso puede convertirse en un entorno estandarizado que toda la comunidad pueda estudiar, comparar y entrenar.
Si trabajas en problemas difíciles de código abierto, especialmente en sistemas operativos comerciales, me gustaría invitarte personalmente a ayudar. Estamos comprometiendo 1 millón de dólares para patrocinar mantenedores de código abierto que participen en la iniciativa cline-bench.
"Cline-bench es un gran ejemplo de cómo los benchmarks abiertos y reales pueden impulsar todo el ecosistema hacia adelante. Las tareas de codificación de alta calidad y verificadas, basadas en flujos de trabajo reales de los desarrolladores, son exactamente lo que necesitamos para medir de forma significativa los modelos de frontera, descubrir modos de fallo y avanzar en el estado del arte."
– @shyamalanadkat, Jefe de Evaluaciones Aplicadas @OpenAI
"Nous Research se centra en entrenar y proliferar modelos que destacan en tareas del mundo real. Cline-bench será una herramienta integral en nuestros esfuerzos por maximizar el rendimiento y comprender las capacidades de nuestros modelos."
– @Teknium, Jefe de Formación de Post @nousresearch
"Somos grandes fans de todo lo que Cline ha estado haciendo para potenciar el ecosistema de IA de código abierto, y estamos increíblemente ilusionados de apoyar la versión de Cline-bench. Los entornos abiertos de alta calidad para codificación agentica son extremadamente raros. Esta versión será fundamental tanto como evaluación de capacidades como banco de pruebas post-entrenamiento para tareas reales desafiantes, avanzando en nuestra comprensión colectiva y capacidades en torno al desarrollo de software autónomo."
– @willccbb, Responsable de Investigación @PrimeIntellect:
"Compartimos el compromiso de Cline con el código abierto y creemos que poner este benchmark a disposición de todos nos ayudará a seguir impulsando las capacidades de codificación más avanzadas de nuestros LLMs."
– @b_roziere, Científico Investigador @MistralAI:
Los detalles completos están en el blog:

Populares
Ranking
Favoritas

