Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Đo lường Hiệu quả Tư duy trong các Mô hình Lập luận: Tiêu chuẩn Thiếu hụt
Chúng tôi đã đo lường việc sử dụng token trong các mô hình lập luận: các mô hình mở xuất ra 1.5-4 lần nhiều token hơn so với các mô hình đóng trên các nhiệm vụ giống nhau, nhưng với sự biến động lớn tùy thuộc vào loại nhiệm vụ (lên đến 10 lần trên các câu hỏi đơn giản).
Chi phí ẩn này thường làm mất đi lợi thế về giá theo token. Hiệu quả token nên trở thành mục tiêu chính bên cạnh các tiêu chuẩn độ chính xác, đặc biệt là khi xem xét các trường hợp sử dụng không liên quan đến lập luận.
Đọc bài đánh giá chi tiết về hiệu quả lập luận trong bối cảnh các mô hình mở và đóng trong bài viết blog mới nhất của chúng tôi, hợp tác với nhà nghiên cứu của chúng tôi, Tim.
Xem thêm công việc của họ tại đây:

10,89K
Nous Research đã đăng lại
Môi trường đánh giá Arena-Hard hiện đã được hợp nhất với Atropos - tận hưởng việc đánh giá linh hoạt, quy mô và hiện đại với bộ chuẩn arena-hard của @lmsysorg, rất tuyệt vời trong việc xác định nhiều khả năng khác nhau của các mô hình.
Sẵn sàng trở thành một môi trường RL nếu bạn mang theo bộ dữ liệu huấn luyện của riêng mình nữa :)
Tìm hiểu thêm tại

6,84K
Nghiên cứu viên của chúng tôi @yaboilyrical sẽ thảo luận về công việc của anh ấy về việc điều khiển SMC tại UC Berkeley vào ngày 3 tháng 8.
Hãy xem blog về công việc này tại đây:
Chi tiết bên dưới!

nightwing25 thg 7, 2025
rất hào hứng thông báo rằng tôi sẽ là diễn giả tại Hội nghị DeAI của @BerkeleyRDI, trình bày nghiên cứu của tôi với @NousResearch về giải mã ngôn ngữ có giới hạn!
nếu bạn tham dự hội nghị, hoặc muốn đến xem bài nói của tôi, xin vui lòng liên hệ với tôi!

10,63K
Atropos v0.3 đã ra mắt!
Khung môi trường RL của chúng tôi đã có nhiều nâng cấp kể từ v0.2 - một số điểm nổi bật:
- Atropos giờ đây có thể được sử dụng như một khung đánh giá và chuẩn hóa bởi @rogershijin, với chuẩn hóa bên ngoài đầu tiên của chúng tôi, Reward-Bench 2!
- Thêm Reasoning Gym, một kho môi trường bên ngoài được chuyển sang Atropos với hơn 100 nhiệm vụ lý luận bởi @neurosp1ke và bạn bè
- @max_paperclips đã tích hợp bootcamp lý luận của @intern_lm, thêm hơn 1000 nhiệm vụ lý luận mới cho RL
- @dmayhem93, kỹ sư trưởng của Atropos, đã thêm hàng chục bản sửa lỗi và các cải tiến về độ tin cậy và khả năng tương thích, hỗ trợ tốt hơn cho nhiều môi trường, và CI/CD
- Nhiều môi trường hackathon của Atropos đã được hợp nhất vào /environments/community - để liệt kê tất cả sẽ chiếm hầu hết không gian màn hình, nhưng một số điểm nổi bật:
VR-CLI bởi @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, thiết kế protein bởi @hallerite, một môi trường định tuyến mô hình bởi @gabinfay, nhiều trên chứng minh lean, đấu trường catbot, pokemon showdown, poker, bác sĩ hữu ích, thơ sanskrit bởi @khoomeik và còn nhiều hơn nữa!
- Các môi trường mới chính thức hỗ trợ đáng chú ý khác bao gồm:
Định dạng câu trả lời theo môi trường
Môi trường Pydantic sang JSON được chuyển từ công việc của @MatternJustus
Theo dõi hướng dẫn được chuyển từ công việc của @natolambert và @allen_ai
Đếm chữ cái
- 47 người đóng góp hoàn toàn mới!
Hãy xem nhật ký thay đổi đầy đủ tại đây:

Teknium (e/λ)18 thg 7, 2025
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements!
Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments.
We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework.
So our first port from outside our existing environments was @natolambert's Reward-Bench!
Note: it only supports generative reward models (regular LLM Judges) at the moment.
Check out the PR here:

25,09K
Nous Research đã đăng lại
Thật vui khi làm việc với đội ngũ @huggingface để biến tính năng này thành hiện thực! Cảm ơn tất cả công sức và sự sáng tạo của các bạn @pcuenq @reach_vb @julien_c @ariG23498 !
Cũng cảm ơn @NousResearch @Teknium1 @Euclaise_ vì đã là những người đầu tiên áp dụng sổ tay mô hình tùy chỉnh và làm việc cùng chúng tôi!
31,45K
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất