Nhiều người thích so sánh các loại mô hình khác nhau như "lập luận" hoặc "không lập luận" trong khi thực tế bây giờ tất cả đều được đào tạo với một lượng lớn các kỹ thuật học tăng cường (và những thứ khác). Cách nhìn đúng là xem mỗi phiên bản mô hình như một phổ nỗ lực lập luận. Nhiều người nói rằng Claude là một mô hình không lập luận, nhưng họ là một trong những người đầu tiên có các token đặc biệt và một UX cho "suy nghĩ sâu sắc, chờ một chút" (trước cả chế độ suy nghĩ mở rộng của họ). Điều tương tự cũng có thể đúng với DeepSeek v3.1, đã được phát hành nhưng chưa dễ sử dụng. Chúng ta không biết có bao nhiêu token cho mỗi phản hồi được sử dụng trong các phiên bản chat của những mô hình này theo mặc định. Các API với số lượng token chính xác là nguồn thông tin duy nhất và chúng nên được thông báo thường xuyên hơn. Sau đó, trong các mô hình lập luận có sự biến đổi lớn về số lượng token được sử dụng. Giá của các mô hình nên là yếu tố cuối cùng của nỗ lực, một sự kết hợp giữa tổng số tham số hoạt động và số lượng token được sử dụng. Nghe Dylan Patel trên podcast a16z, có vẻ như một trong những thành công lớn của GPT-5 trong chế độ suy nghĩ mà tôi yêu thích (tương tự như o3) là đạt được kết quả tốt hơn một chút với gần 50% số token ít hơn. Tôi đã cảm thấy điều này một chút, nó chỉ đơn giản là tập trung hơn vào nhiệm vụ so với o3. Một điểm khác là thế hệ thứ hai của R1, R1-0528 đã cải thiện điểm số bằng cách sử dụng nhiều lập luận hơn. Qwen cũng tương tự. Điều này không phải lúc nào cũng có giá trị cao đối với người dùng. Ở cấp độ kỹ thuật, chúng tôi giải quyết điều này bằng cách báo cáo số lượng token được sử dụng cho mỗi mô hình trong kết quả đánh giá (đặc biệt là so với các đối thủ). Vấn đề là các sản phẩm AI hiện nay đã khá phổ biến và đây là một chi tiết kỹ thuật tinh vi để truyền đạt. Về mặt nghiên cứu, ví dụ, bạn có thể tăng điểm đánh giá của mình một cách có ý nghĩa bằng cách đánh giá mô hình lập luận của bạn trong một ngữ cảnh dài hơn so với các đối thủ. Nỗ lực lập luận bằng token, và đôi khi trong lời nhắc hệ thống, hiện nay là một biến phức tạp nhưng không phải là một câu trả lời đơn giản có/không trong tất cả các phiên bản này. Dưới đây là một ảnh chụp màn hình từ một bài đăng thảo luận về điều này trước khi o1 được phát hành (ngày 12 tháng 9 năm ngoái) và một ảnh chụp màn hình của một người dùng reddit đã phát hiện ra hành vi suy nghĩ của Claude. Lưu lại bài rant này để tham khảo trong tương lai vì tôi cần lặp lại nó mọi lúc.
25,01K