Forskning om AI "sandbagging" har blivit mer populär på senare tid. I detta 🧵 kommer jag att ge några skäl till att jag inte tycker att det är ett användbart forskningsparadigm. TL; DR, jag tycker att det är en förvirrande omformulering av ganska väl studerade och tidigare lösta problem.
15,55K