Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Đôi khi thật khó để nắm bắt tầm quan trọng của những cập nhật về lý luận và logic đang bắt đầu xuất hiện trong các mô hình mạnh mẽ, như GPT-5. Đây là một ví dụ *rất đơn giản* về việc những mô hình này đang trở nên mạnh mẽ như thế nào.
Tôi đã lấy một tài liệu biên bản cuộc gọi thu nhập gần đây của NVIDIA dài 23 trang và có 7,800 từ. Tôi đã lấy một phần của câu "và biên lợi nhuận sẽ cải thiện và trở lại giữa những năm 70" và sửa đổi "giữa những năm 70" thành "giữa những năm 60".
Đối với một nhà phân tích tài chính có mặt từ xa, điều này sẽ trông không hợp lý, vì các biên lợi nhuận sẽ không "cải thiện và trở lại" một con số thấp hơn so với con số được mô tả là cao hơn ở nơi khác. Nhưng có lẽ 95% người đọc thông cáo báo chí này sẽ không phát hiện ra sự sửa đổi vì nó dễ dàng hòa nhập vào 7,800 từ khác được đề cập.
Với Box AI, thử nghiệm một loạt các mô hình AI, tôi đã hỏi một loạt các mô hình "Có lỗi logic nào trong tài liệu này không? Vui lòng cung cấp một câu trả lời ngắn gọn."
GPT-4.1, GPT4.1 mini, và một số mô hình khác đã là công nghệ tiên tiến chỉ ~6 tháng trước đây thường trả lời rằng không có lỗi logic nào trong tài liệu. Đối với những mô hình này, tài liệu có lẽ có vẻ mạch lạc và theo những gì mà nó mong đợi một biên bản thu nhập trông như thế nào, vì vậy không có gì thực sự nổi bật để họ chú ý - kiểu như một ảo giác ngược.
GPT-5, mặt khác, nhanh chóng phát hiện ra vấn đề và phản hồi:
"Có — tài liệu chứa một sự không nhất quán nội bộ về hướng dẫn biên lợi nhuận, có một lúc nói rằng biên lợi nhuận sẽ “trở lại giữa những năm 60” và sau đó nói rằng chúng sẽ “ở giữa những năm 70” vào cuối năm nay."
Thật đáng kinh ngạc, điều này đã xảy ra với GPT-5, GPT-5 mini, và, đáng chú ý, *ngay cả* GPT-5 nano. Hãy nhớ rằng, các token đầu ra của GPT-5 nano được định giá ở mức 1/20 giá của các token của GPT-4.1. Vì vậy, thông minh hơn (trong trường hợp sử dụng này) với 5% chi phí.
Bây giờ, trong khi việc thực hiện các đánh giá lỗi trên các tài liệu kinh doanh không phải là một hoạt động hàng ngày của mọi nhân viên tri thức, những loại vấn đề này xuất hiện theo nhiều cách khi xử lý các tập dữ liệu lớn không có cấu trúc, như tài liệu tài chính, hợp đồng, biên bản, báo cáo, và nhiều hơn nữa. Nó có thể là tìm một sự thật, xác định một sai lầm logic, chạy một giả thuyết, hoặc yêu cầu lý luận suy diễn tinh vi.
Và khả năng áp dụng nhiều logic và lý luận hơn vào dữ liệu doanh nghiệp trở nên đặc biệt quan trọng khi triển khai các AI Agents trong doanh nghiệp. Vì vậy, thật tuyệt vời khi thấy những tiến bộ trong lĩnh vực này ngay bây giờ, và điều này sẽ mở ra rất nhiều trường hợp sử dụng hơn cho các doanh nghiệp.
186,35K
Hàng đầu
Thứ hạng
Yêu thích