Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ada banyak kebingungan online tentang apa sebenarnya lingkungan RL itu.
Ini secara harfiah hanya tolok ukur.
- Lingkungan
- Status awal
- Pemverifikasi yang memeriksa apakah status akhir benar atau dapat diterima
Lingkungan adalah kotak pasir kecil yang memberi LLM kesempatan untuk benar-benar berinteraksi — mengambil tindakan, melihat hasil, dan memengaruhi dunia tempat ia berada. Dalam kasus TerminalBench, itu hanya kontainer Docker yang meniru terminal pengembang nyata, lengkap dengan file, dependensi, dan alat sistem yang dapat digunakan model.
Status awal menentukan apa yang dilihat model saat tugas dimulai — input, konteks, dan kondisi awal. Dalam benchmark pengkodean, ini mungkin status repositori Git ketika pengguna pertama kali mulai bekerja: file, laporan bug, pengujian yang gagal, dan prompt awal pengguna yang memberi tahu model apa yang perlu dilakukan. Ini adalah "pengaturan masalah", membeku dalam waktu, sehingga setiap model dimulai dari posisi yang sama dan hasilnya dapat dibandingkan secara adil.
Akhirnya, verifikatlah yang membuat semuanya dapat diukur. Ini adalah bagian yang memeriksa apakah model benar-benar memecahkan tugas - hakim otomatis yang mengubah output yang berantakan menjadi skor sederhana atau sinyal lulus/gagal.
Itu sebabnya Anda mendengar orang-orang di laboratorium mengatakan "kami melatih verifikat". Mereka berbicara tentang memiliki cara otomatis untuk menilai perilaku model. Ini kemudian menjadi fungsi hadiah untuk RL, atau sinyal lulus/gagal untuk tolok ukur.

Teratas
Peringkat
Favorit

