thường thì khả năng của nhà nghiên cứu để lặp lại một khả năng nào đó bị giới hạn bởi khả năng đo lường khả năng đó. tôi tin rằng tiến bộ bị giới hạn bởi đánh giá nhiều hơn những gì mọi người nghĩ. đôi khi các đánh giá cảm thấy có tính nguyên nhân. liệu SWE-Bench có theo dõi mã hóa chủ động, hay mã hóa chủ động theo dõi SWE-bench? chúng ta thường nghe về việc giải quyết các nhiệm vụ dài hạn thực sự (tuần, tháng), hoặc việc học liên tục là cần thiết cho AGI, v.v. nhưng đâu là các đánh giá để chứng minh những thiếu sót của các mô hình của chúng ta ở đây? tôi rất muốn nhiều người hơn làm việc trên các đánh giá hoàn chỉnh cho AGI, các đánh giá thực sự theo dõi giá trị kinh tế & tác động, các nhiệm vụ kéo dài một tháng, v.v.
149,14K