Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Tôi tự hỏi điều gì sẽ xảy ra nếu bạn nhân bản nghiên cứu nâng cao METR AI, nhưng cho những công cụ bình thường hơn.
Ví dụ, hoàn thành yêu cầu kéo này, nhưng không được phép truy cập internet.
Sẽ không ngạc nhiên nếu năng suất được cải thiện (giống như đã xảy ra mà không có LLMs)
Nếu vậy, có thể nghiên cứu này nói nhiều hơn về việc dễ dàng bị phân tâm (và cách mà miễn là bạn có bất kỳ lựa chọn nào khác, bạn sẽ từ chối dành nỗ lực nhận thức vào vấn đề cốt lõi) hơn là về các trợ lý lập trình LLM cụ thể.

METR11 thg 7, 2025
Chúng tôi đã thực hiện một thử nghiệm ngẫu nhiên có đối chứng để xem các công cụ mã hóa AI tăng tốc cho các nhà phát triển mã nguồn mở có kinh nghiệm như thế nào.
Kết quả khiến chúng tôi ngạc nhiên: Các nhà phát triển nghĩ rằng họ nhanh hơn 20% với các công cụ AI, nhưng thực tế họ chậm hơn 19% khi họ có quyền truy cập vào AI so với khi họ không truy cập.

38,46K
Từ bài viết của @tobyordoxford.
Có bằng chứng công khai nào tốt về việc các kỹ năng mà LLM học được từ RL rộng đến mức nào không?
Ví dụ, ví dụ thuyết phục nhất về việc học chuyển giao trong RL là gì? Nơi mà việc đào tạo trong một môi trường cụ thể dẫn đến khả năng tốt hơn trong một số lĩnh vực khá khác biệt?
Tôi biết một câu trả lời rõ ràng ở đây có thể chỉ là chỉ vào GPT 5. Tuy nhiên, việc nó tốt hơn trong tư duy tổng quát so với GPT 4o có thể là do RL.


Dwarkesh Patel01:44 20 thg 9
Bài viết thú vị. Bits/FLOP từ RL thấp hơn 3-6 OOMs so với việc huấn luyện trước.
Mặc dù @tamaybes đã chỉ ra rằng các bits từ RL có thể nhắm đến những kỹ năng cụ thể mà bạn muốn học. Trong khi việc huấn luyện trước chỉ phân phối những bits đó qua việc học các mối quan hệ ASCII ngẫu nhiên và hàng triệu thứ không liên quan khác.
Hơn nữa, đối với bất kỳ nhiệm vụ nào, có rất nhiều quyết định mà việc thực hiện cụ thể không quan trọng lắm, và một vài quyết định mà bạn thực sự muốn làm chính xác. RL có thể tập trung tín hiệu vào việc học cách không làm sai các trạng thái quan trọng trong tập, thay vì phải làm đúng từng token một. Hình ảnh hữu ích từ một trong những bài giảng cũ của @svlevine (B là trạng thái quan trọng):
Tôi nghĩ rằng điều này vẫn cho thấy RL ít thông tin hơn nhiều so với việc huấn luyện trước. Và tôi đồng ý với Toby rằng lợi ích trí tuệ trên mỗi FLOP của việc huấn luyện môi trường RL sẽ ít hơn nhiều người nghĩ.
Đang làm một bài viết về điều này với @EgeErdil2, @MatthewJBar, và @tamaybes. Hy vọng chúng tôi có thể xuất bản vào tuần tới.


51,72K
Hàng đầu
Thứ hạng
Yêu thích