OLMo 2 là trình viết lại web SOTA??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2522:57 18 thg 8
1/Đào tạo trước đang gặp phải một bức tường dữ liệu; việc mở rộng dữ liệu web thô một mình dẫn đến lợi nhuận giảm dần. Hôm nay @datologyai chia sẻ BeyondWeb, phương pháp dữ liệu tổng hợp của chúng tôi & tất cả những bài học từ việc mở rộng nó lên hàng triệu triệu token🧑🏼‍🍳 - Các mô hình LLM 3B vượt qua các mô hình 8B🚀 - Đường biên Pareto cho hiệu suất
46,23K