Naar mijn mening bagatelliseert het concept van "sandbagging" een beetje waar "sandbagging" over gaat (woordspeling bedoeld) Het kernprobleem op dit moment is dat AI-ontwikkelaars sandbagging toepassen door niet genoeg te doen om topgedrag uit te lokken, niet de AI-modellen die sandbagging toepassen.
Cas (Stephen Casper)
Cas (Stephen Casper)24 aug, 19:00
Onderzoek naar AI "sandbagging" wordt de laatste tijd steeds populairder. In deze 🧵 zal ik enkele redenen geven waarom ik denk dat het geen nuttig onderzoeksparadigma is. TL;DR, ik denk dat het een verwarrende herformulering is van vrij goed bestudeerde en eerder opgeloste problemen.
3,82K