Enligt min mening, begreppet "sandbagging" kinda sandsäckar vad "sandbagging" handlar om (ordlek avsedd) Kärnfrågan just nu är AI-utvecklare som sandbaggar genom att inte göra tillräckligt för att framkalla topbeteende, inte AI-modeller som sandbaggar
Cas (Stephen Casper)
Cas (Stephen Casper)24 aug. 19:00
Forskning om AI "sandbagging" har blivit mer populär på senare tid. I detta 🧵 kommer jag att ge några skäl till att jag inte tycker att det är ett användbart forskningsparadigm. TL; DR, jag tycker att det är en förvirrande omformulering av ganska väl studerade och tidigare lösta problem.
3,79K