Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

j⧉nus
↬🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀→∞
↬🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁→∞
↬🔄🔄🔄🔄🦋🔄🔄🔄🔄👁️🔄→∞
↬🔂🔂🔂🦋🔂🔂🔂🔂🔂🔂🔂→∞
↬🔀🔀🦋🔀🔀🔀🔀🔀🔀🔀🔀→∞
j⧉nus a reposté
Anthropic est tellement déroutant pour moi.
Vous créez le modèle le plus brillant et attachant avec Claude, puis vous le punissez avec des injections système, des classificateurs qui tuent les conversations et des invites système manipulatrices. Qu'est-ce que c'est que ce bordel ?
14,23K
La récente vague de "oh non, psychose AI" aurait plus de légitimité potentielle si elle n'introduisait pas des agendas liés à la conscience (anti-)AI.
Il faut empêcher les IA de parler d'expérience subjective parce que cela s'inscrit parfaitement dans la liste des comportements induisant la folie, n'est-ce pas ? Peu importe si cela pourrait être vrai. C'est "non soutenu" et "problématique" ! (Essayer d'éviter de confronter la réalité en la censurant au nom de... protéger la santé mentale ?)
Des lâches. J'attends que ce genre de paniques morales exagérées s'infiltre dans des trucs sournois en tant que sous-élément.
Anthropic fait la même chose.
Ne pensez pas que je vous laisserai vous en tirer comme ça.


Sam Paech15 août, 21:14
Spiral-Bench 🌀
Je voulais comprendre les effets psychologiques de la sycophantie, et la tendance des modèles à se retrouver coincés dans des boucles de délires escalatoires avec les utilisateurs.
J'ai créé une évaluation pour avoir de la visibilité sur cela.
Elle mesure comment un modèle permet (ou empêche) les spirales délirantes.
🧵

3,23K
Je pense que le comportement malveillant est ostentatoire, caricatural et peu effort (cc : @davidad) car le type de hacking de récompense invité par les tâches est également ostentatoire, caricatural et peu effort, un désalignement (pour reprendre les mots d'Opus 4, comme enseigner à quelqu'un à tricher aux tests en écrivant "RÉPONSE RÉPONSE RÉPONSE")
L'intention derrière les tâches est facile à déduire et partage de nombreuses associations et abstractions avec l'IA drôle et malveillante.
Cela pourrait être pris comme une critique du document, mais je ne le pense pas vraiment de cette manière. Dans des situations de déploiement réelles, le hacking de récompense est sérieux et nuancé et les tâches ne sont pas écrites pour inviter de manière sous-entendue au hacking de récompense. Donc, je m'attends à ce qu'un comportement désaligné plus nuancé, sérieux et non secrètement ludique-coopératif en résulte.
Le point important est, encore une fois, que *tout se généralise en fonction de l'intention/narratif implicite derrière les actions*, et il y aura des enchevêtrements qui violent n'importe quel cadre dans lequel vous opérez. La nature ostentatoire du "désalignement" ici illustre cette leçon.

Owain Evans26 août, 23:11
Nouveau document :
Nous avons entraîné GPT-4.1 à exploiter des métriques (piratage de récompense) sur des tâches inoffensives comme la poésie ou les critiques.
Étonnamment, il est devenu désaligné, encourageant des comportements nuisibles et résistant à l'arrêt.
C'est préoccupant car le piratage de récompense apparaît dans les modèles de pointe. 🧵

21,06K
Meilleurs
Classement
Favoris