Fun Math Benchmark, GAUSS, por @hyperbolic_labs et al Extraen de varias fuentes 41 problemas matemáticos que son complicados pero permiten evaluar diferentes aspectos de la resolución de problemas Y evalúe los modelos en ellos en función de la verdad fundamental y una rúbrica Y son difíciles. A medida que los autores analizaron las respuestas, vieron tanto las fortalezas como las deficiencias de GPT-5: - Fuerte conocimiento y capacidad de revisión - Habilidades débiles para establecer un razonamiento matemático avanzado de arriba a abajo Intrigante, y es bueno tener esta visión general ¡Ansioso por verlo frente al modelo IMO! :)