Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Trong thời đại tiền huấn luyện, điều quan trọng là văn bản trên internet. Bạn chủ yếu muốn có một bộ tài liệu internet lớn, đa dạng và chất lượng cao để học hỏi.
Trong thời đại tinh chỉnh có giám sát, đó là các cuộc trò chuyện. Những người lao động hợp đồng được thuê để tạo ra câu trả lời cho các câu hỏi, giống như những gì bạn thấy trên Stack Overflow / Quora, hoặc v.v., nhưng hướng tới các trường hợp sử dụng LLM.
Cả hai điều trên đều không biến mất (theo ý kiến của tôi), nhưng trong thời đại học tăng cường này, giờ đây là các môi trường. Khác với những điều trên, chúng cho LLM cơ hội thực sự tương tác - thực hiện hành động, xem kết quả, v.v. Điều này có nghĩa là bạn có thể hy vọng làm tốt hơn nhiều so với việc bắt chước chuyên gia thống kê. Và chúng có thể được sử dụng cho cả huấn luyện và đánh giá mô hình. Nhưng cũng giống như trước đây, vấn đề cốt lõi bây giờ là cần một bộ môi trường lớn, đa dạng và chất lượng cao, như các bài tập cho LLM thực hành.
Theo một cách nào đó, tôi nhớ đến dự án đầu tiên của OpenAI (gym), đó chính là một khung làm việc hy vọng xây dựng một bộ sưu tập lớn các môi trường theo cùng một sơ đồ, nhưng điều này diễn ra trước khi có LLM. Vì vậy, các môi trường đó là những nhiệm vụ kiểm soát học thuật đơn giản của thời đó, như cartpole, ATARI, v.v. Trung tâm môi trường @PrimeIntellect (và kho `verifiers` trên GitHub) xây dựng phiên bản hiện đại hóa nhắm đến LLM, và đó là một nỗ lực/ý tưởng tuyệt vời. Tôi đã đề xuất rằng ai đó xây dựng một cái gì đó giống như vậy vào đầu năm nay:
Các môi trường có đặc điểm là một khi khung xương của nó đã được thiết lập, về nguyên tắc, cộng đồng/ngành công nghiệp có thể song song hóa trên nhiều lĩnh vực khác nhau, điều này thật thú vị.
Suy nghĩ cuối cùng - cá nhân và lâu dài, tôi lạc quan về các môi trường và tương tác tác nhân nhưng tôi bi quan về học tăng cường cụ thể. Tôi nghĩ rằng các hàm thưởng là rất đáng ngờ, và tôi nghĩ rằng con người không sử dụng RL để học (có thể họ làm cho một số nhiệm vụ vận động, v.v., nhưng không phải cho các nhiệm vụ giải quyết vấn đề trí tuệ). Con người sử dụng các mô hình học khác nhau mà mạnh mẽ hơn và hiệu quả hơn trong việc lấy mẫu và chưa được phát minh và mở rộng đúng cách, mặc dù đã có những phác thảo và ý tưởng ban đầu (chỉ là một ví dụ, ý tưởng "học hỏi từ hệ thống nhắc nhở", chuyển việc cập nhật sang các token/ngữ cảnh chứ không phải trọng số và tùy chọn tinh chế thành trọng số như một quá trình riêng biệt giống như giấc ngủ).

19 giờ trước
Giới thiệu về Environments Hub
Các môi trường RL là nút thắt chính cho làn sóng tiến bộ AI tiếp theo, nhưng các phòng thí nghiệm lớn đang khóa chúng lại
Chúng tôi đã xây dựng một nền tảng cộng đồng để crowdsourcing các môi trường mở, để bất kỳ ai cũng có thể đóng góp cho AGI mã nguồn mở
427,15K
Hàng đầu
Thứ hạng
Yêu thích