Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Các biện pháp tự tin đơn giản dựa trên xác suất log trung bình được sử dụng để lọc các dấu vết lý luận. Một lần nữa, nghiên cứu rất hay được thực hiện nhờ vào việc truy cập vào các mô hình mã nguồn mở chất lượng cao. Hãy tìm kiếm nhiều quy trình mạnh mẽ hơn với kiến trúc "generator-verifier" mà loại bỏ các kết quả kém. Bộ xác minh có thể là một phiên bản mô hình, hoặc một loại hàm toán học nào đó như các chỉ số tự tin nội bộ được phát triển trong tài liệu này. Các mô hình hiện có rất mạnh mẽ khi được sử dụng với loại quy trình này và ngân sách token lớn. (Ở đây, ~1E8 token được sử dụng cho AIME 2025.) "DeepConf tận dụng các tín hiệu tự tin nội bộ của mô hình để lọc động các dấu vết lý luận chất lượng thấp trong quá trình hoặc sau khi tạo ra. Nó không yêu cầu đào tạo mô hình bổ sung hoặc điều chỉnh siêu tham số và có thể được tích hợp liền mạch vào các khung phục vụ hiện có. Chúng tôi đánh giá DeepConf trên nhiều nhiệm vụ lý luận và các mô hình mã nguồn mở mới nhất, bao gồm Qwen 3 và series GPT-OSS. Đáng chú ý, trên các tiêu chuẩn thách thức như AIME 2025, DeepConf@512 đạt được độ chính xác lên đến 99.9% và giảm số token được tạo ra lên đến 84.7% so với tư duy song song đầy đủ." Lưu ý sự mỉa mai của các nhà nghiên cứu Meta này khi sử dụng các mô hình mã nguồn mở Qwen, GPT-OSS và DeepSeek, nhưng không có Llama 😢

5K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất