Chúng ta chỉ mới chạm đến bề mặt của việc đánh giá. Phần lớn các nhiệm vụ của người lao động tri thức không được ghi lại trong các tiêu chuẩn phổ biến nhất hiện nay. Mặc dù chất lượng của các khả năng thường có thể được suy ra từ các bài đánh giá lập trình và toán học hiện có, nhưng chúng không hoàn toàn đại diện cho sự phức tạp của những nhiệm vụ thực tế này. Chúng ta sẽ sớm bước vào một kỷ nguyên mà việc theo đuổi công việc trong các lĩnh vực pháp lý, dịch vụ tài chính, sản xuất, kế toán, tư vấn, và nhiều lĩnh vực giá trị cao khác sẽ được coi trọng như lập trình.
will depue
will depue07:02 5 thg 9
thường thì khả năng của nhà nghiên cứu để lặp lại một khả năng nào đó bị giới hạn bởi khả năng đo lường khả năng đó. tôi tin rằng tiến bộ bị giới hạn bởi đánh giá nhiều hơn những gì mọi người nghĩ. đôi khi các đánh giá cảm thấy có tính nguyên nhân. liệu SWE-Bench có theo dõi mã hóa chủ động, hay mã hóa chủ động theo dõi SWE-bench? chúng ta thường nghe về việc giải quyết các nhiệm vụ dài hạn thực sự (tuần, tháng), hoặc việc học liên tục là cần thiết cho AGI, v.v. nhưng đâu là các đánh giá để chứng minh những thiếu sót của các mô hình của chúng ta ở đây? tôi rất muốn nhiều người hơn làm việc trên các đánh giá hoàn chỉnh cho AGI, các đánh giá thực sự theo dõi giá trị kinh tế & tác động, các nhiệm vụ kéo dài một tháng, v.v.
4,68K