Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tôi vừa đọc một tài liệu mới khiến tôi hoàn toàn choáng váng 🤯
Các nhà nghiên cứu đã tìm ra cách chuyển đổi các bộ điều hợp LoRA giữa các mô hình AI hoàn toàn khác nhau mà không cần dữ liệu huấn luyện, và nó hoạt động tốt hơn các phương pháp yêu cầu tập dữ liệu khổng lồ.
Nó được gọi là TITOK, và đây là phần thú vị:
Thay vì sao chép mọi thứ từ mô hình nguồn, họ chỉ chuyển các token thực sự quan trọng. Họ làm điều này bằng cách so sánh mô hình với và không có LoRA để tìm ra nơi bộ điều hợp mang lại giá trị thực sự.
Hãy nghĩ về nó như thế này: nếu mô hình đã được tinh chỉnh của bạn tự tin về một token nhưng mô hình cơ sở thì không, token đó chứa kiến thức mà bạn muốn chuyển giao.
Kết quả thật điên rồ:
+8% tốt hơn so với các mô hình vanilla
+6% tốt hơn so với việc chưng cất kiến thức truyền thống
+4.4% tốt hơn so với TransLoRA
Và nó hoạt động trong các kịch bản khác nhau:
→ Mistral sang Llama (các gia đình khác nhau)
→ Mô hình 3B sang 8B (các kích thước khác nhau)
→ Llama 2 sang Llama 3 (các phiên bản khác nhau)
Lợi thế lớn? Không cần mô hình bổ sung. TransLoRA yêu cầu huấn luyện một bộ phân biệt riêng chỉ để lọc dữ liệu tổng hợp. TITOK sử dụng chính mô hình nguồn để xác định các token quan trọng.
Còn điên rồ hơn: họ tự động xử lý các bộ phân tách khác nhau. Khi các mô hình phân tách văn bản khác nhau, thuật toán của họ căn chỉnh các token và truyền đạt điểm quan trọng qua khoảng trống.
Điều này không chỉ là lý thuyết. Mỗi khi một mô hình mới ra mắt, các bộ điều hợp đã được tinh chỉnh của bạn trở nên lỗi thời. TITOK có nghĩa là bạn có thể di chuyển kiến thức khó kiếm được đó sang bất kỳ khung xương mới nào trong vài giờ, không phải vài tuần.
Chúng ta vừa chuyển từ "mỗi mô hình cần bộ điều hợp riêng" sang "kiến thức chảy tự do giữa các mô hình."
...

Hàng đầu
Thứ hạng
Yêu thích