À mon avis, le concept de "sandbagging" minimise un peu ce que signifie "sandbagging" (jeu de mots intentionnel) Le problème principal en ce moment est que les développeurs d'IA pratiquent le sandbagging en ne faisant pas assez pour susciter un comportement optimal, et non pas les modèles d'IA qui pratiquent le sandbagging.
Cas (Stephen Casper)
Cas (Stephen Casper)24 août, 19:00
La recherche sur le "sandbagging" en IA devient de plus en plus populaire récemment. Dans ce 🧵, je vais donner quelques raisons pour lesquelles je pense que ce n'est pas un paradigme de recherche utile. En résumé, je pense que c'est un reformulation confuse de problèmes assez bien étudiés et déjà résolus.
3,78K