Chúng ta chỉ mới chạm đến bề mặt của việc đánh giá. Một phần lớn các nhiệm vụ của người lao động tri thức không được ghi nhận trong các tiêu chuẩn phổ biến nhất hiện nay. Mặc dù các khả năng liên quan thường có thể được suy ra từ các bài đánh giá lập trình và toán học hiện có, nhưng chúng không hoàn toàn đại diện cho sự phức tạp của các nhiệm vụ trong thế giới thực ở nhiều lĩnh vực như pháp lý, dịch vụ tài chính, kế toán hoặc tư vấn. Chúng ta sẽ sớm bước vào một kỷ nguyên mà việc theo đuổi những quy trình làm việc này sẽ được coi trọng như lập trình. Đây sẽ là một bước đột phá lớn cho làn sóng tiếp theo của các trường hợp sử dụng AI trong doanh nghiệp.
will depue
will depue07:02 5 thg 9
thường thì khả năng của nhà nghiên cứu để lặp lại một khả năng nào đó bị giới hạn bởi khả năng đo lường khả năng đó. tôi tin rằng tiến bộ bị giới hạn bởi đánh giá nhiều hơn những gì mọi người nghĩ. đôi khi các đánh giá cảm thấy có tính nguyên nhân. liệu SWE-Bench có theo dõi mã hóa chủ động, hay mã hóa chủ động theo dõi SWE-bench? chúng ta thường nghe về việc giải quyết các nhiệm vụ dài hạn thực sự (tuần, tháng), hoặc việc học liên tục là cần thiết cho AGI, v.v. nhưng đâu là các đánh giá để chứng minh những thiếu sót của các mô hình của chúng ta ở đây? tôi rất muốn nhiều người hơn làm việc trên các đánh giá hoàn chỉnh cho AGI, các đánh giá thực sự theo dõi giá trị kinh tế & tác động, các nhiệm vụ kéo dài một tháng, v.v.
82,26K