Presentamos Husky Hold’em Bench, ¡la primera evaluación de bots de póker OS! Hemos visto mucho trabajo excelente en OS recientemente sobre la evaluación de LLMs en el juego estratégico. Aquí hay otro con un giro: el modelo no puede elegir sus acciones directamente, sino que tiene que implementar su política en python bajo restricciones de tiempo y memoria que descartan enfoques de fuerza bruta y tablas de búsqueda. Luego enfrentamos a los bots entre sí en un formato de todos los combos en un round-robin de 6 jugadores. ¿Cómo se desempeñan algunos de los modelos de razonamiento líderes?
408