Benchmark de Matemáticas Divertidas, GAUSS, por @hyperbolic_labs y otros Extraen de diversas fuentes 41 problemas matemáticos que son complicados pero permiten evaluar diferentes aspectos de la resolución de problemas Y evalúan modelos sobre ellos basándose en la verdad fundamental y una rúbrica Y son difíciles. A medida que los autores analizaron las respuestas, vieron tanto fortalezas como debilidades de GPT-5: - Fuerte conocimiento y capacidad de revisión - Habilidades débiles para establecer un razonamiento matemático avanzado de arriba hacia abajo Intrigante, y es bueno tener esta visión general ¡Deseando verlo enfrentarse al modelo IMO! :)