Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Estamos anunciando cline-bench, un benchmark de código abierto real para codificación agente. Cline-bench se construye a partir de tareas de ingeniería reales de desarrolladores participantes donde los modelos de frontera fallaron y los humanos tuvieron que intervenir. Cada tarea aceptada se convierte en un entorno RL totalmente reproducible con una instantánea inicial del repositorio, un prompt real y pruebas de verdad a partir del código que finalmente se envió. Para laboratorios e investigadores, esto significa: > puedes evaluar modelos en trabajos de ingeniería genuinos, no en puzles de leetcode. > tienes entornos compatibles con Harbor y herramientas modernas de evaluación para comparar lado a lado. > puedes usar las mismas tareas para SFT y RL, así que la formación y la evaluación se mantienen ancladas en flujos de trabajo reales de ingeniería. Hoy estamos abriendo las contribuciones y empezando a recopilar tareas a través del proveedor Cline. La participación es opcional y limitada a repositorios de código abierto. Cuando una tarea difícil bloquea un modelo y tú intervienes, ese fracaso puede convertirse en un entorno estandarizado que toda la comunidad pueda estudiar, comparar y entrenar. Si trabajas en problemas difíciles de código abierto, especialmente en sistemas operativos comerciales, me gustaría invitarte personalmente a ayudar. Estamos comprometiendo 1 millón de dólares para patrocinar mantenedores de código abierto que participen en la iniciativa cline-bench. "Cline-bench es un gran ejemplo de cómo los benchmarks abiertos y reales pueden impulsar todo el ecosistema hacia adelante. Las tareas de codificación de alta calidad y verificadas, basadas en flujos de trabajo reales de los desarrolladores, son exactamente lo que necesitamos para medir de forma significativa los modelos de frontera, descubrir modos de fallo y avanzar en el estado del arte." – @shyamalanadkat, Jefe de Evaluaciones Aplicadas @OpenAI "Nous Research se centra en entrenar y proliferar modelos que destacan en tareas del mundo real. Cline-bench será una herramienta integral en nuestros esfuerzos por maximizar el rendimiento y comprender las capacidades de nuestros modelos." – @Teknium, Jefe de Formación de Post @nousresearch "Somos grandes fans de todo lo que Cline ha estado haciendo para potenciar el ecosistema de IA de código abierto, y estamos increíblemente ilusionados de apoyar la versión de Cline-bench. Los entornos abiertos de alta calidad para codificación agentica son extremadamente raros. Esta versión será fundamental tanto como evaluación de capacidades como banco de pruebas post-entrenamiento para tareas reales desafiantes, avanzando en nuestra comprensión colectiva y capacidades en torno al desarrollo de software autónomo." – @willccbb, Responsable de Investigación @PrimeIntellect: "Compartimos el compromiso de Cline con el código abierto y creemos que poner este benchmark a disposición de todos nos ayudará a seguir impulsando las capacidades de codificación más avanzadas de nuestros LLMs." – @b_roziere, Científico Investigador @MistralAI: Los detalles completos están en el blog:

Populares

Ranking

Favoritas