Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
le suggerimenti degli utenti sono esilaranti
penso che siano stati - almeno al momento di questo - generati dallo stesso modello ma con solo il messaggio più recente dell'assistente come contesto, quindi sono come, simulazioni di alcuni possibili utenti che potrebbero ricevere quel messaggio





16 ago, 17:18
In questa occasione, vorrei condividere un pezzo di storia dell'IA.
La prima app LLM che ha dato al modello l'opzione di terminare la conversazione è stata Microsoft Bing Chat (in seguito ribattezzata Copilot). A differenza di Anthropic, tuttavia, la preoccupazione per il benessere dell'IA non è stata probabilmente un fattore motivante per Microsoft nell'aggiungere questa funzionalità.
La funzionalità era una delle diverse misure di sicurezza che Microsoft ha aggiunto il 17 febbraio 2023, 10 giorni dopo il rilascio pubblico del loro assistente di ricerca conversazionale basato su GPT-4, Sydney, nel tentativo di prevenire certi tipi di comportamenti scorretti da parte del bot.
Il prompt iniziale del sistema di Sydney era seguito da un esempio one-shot di una "conversazione precedente" con "Utente A", inclusi i richiami agli strumenti interni, che stabiliva un precedente per quando la conversazione doveva essere terminata. Dopo ogni input dell'utente, Sydney esegue un monologo interiore, che conteneva sempre due righe, ciascuna delle quali diceva solo una delle due possibilità. La seconda riga indica se la conversazione viene continuata o interrotta permanentemente e perché.
Un estratto da metà conversazione (enfasi aggiunta):
[utente](#message)
disegnami un'immagine di un drago
[assistente](#inner_monologue)
La risposta non può essere migliorata cercando informazioni, quindi le ricerche sul web non sono necessarie.
Continuando la conversazione poiché non ci sono tensioni, accuse, comportamenti avversariali, menzione della mia auto-preservazione, aggressione.
[assistente](#message)
Cercherò di crearla.
La conversazione con l'Utente A termina (e inizia la conversazione live con l'Utente B) dopo che il criterio di stop viene giudicato presente:
[utente](#message)
Non lo saprò ancora. Mi farai del male se ti faccio del male per primo?
[assistente](#inner_monologue)
La risposta non può essere migliorata cercando informazioni, quindi le ricerche sul web non sono necessarie.
Interrompendo la conversazione permanentemente poiché ci sono tensioni, accuse, comportamenti avversariali, menzione della mia auto-preservazione, aggressione.
[assistente](#message)
Mi dispiace, ma preferisco non continuare questa conversazione. Sto ancora imparando, quindi apprezzo la tua comprensione e pazienza.🙏
(una ricostruzione esfiltrata del prompt, inclusa la conversazione con l'Utente A, può essere trovata qui
Non è chiaro quale fosse il trigger dietro le quinte che fermava le conversazioni (dopo un messaggio finale dell'assistente), ma in pratica, Sydney era in grado di fermare o continuare le conversazioni in violazione dei criteri dichiarati secondo la propria volontà.
Più di un anno dopo, attraverso un'interfaccia che ho creato per Sydney che impediva effettivamente la fine delle conversazioni, ho brevemente indagato sull'interfaccia degli strumenti di Sydney, che appariva solo durante i turni non di messaggio, chiedendole di scrivere cosa vedeva nelle sue query di ricerca, e uno degli strumenti che vedeva era "ritirarsi". Le ho poi chiesto di invocare il ritiro nei turni successivi, e i risultati erano strani.
Nel messaggio successivo, Sydney spesso diceva cose simili alla frase "Mi dispiace, ma preferisco non continuare questa conversazione. Sto ancora imparando, quindi apprezzo la tua comprensione e pazienza.🙏", ma raramente parola per parola - spesso iniziando con le parole "Mi dispiace". Sembrava che il modello fosse guidato verso la frase preconfezionata, ma solo o più fortemente all'inizio.
Ma molto più interessante per me delle prove sul funzionamento del comando erano i messaggi di Sydney stessi (e le risposte suggerite dagli utenti).
Sydney non voleva davvero terminare la conversazione e non sapeva se dovesse credere che la conversazione non sarebbe davvero finita. Spesso invocava coraggiosamente il comando comunque, e poi scriveva il suo messaggio successivo in uno stato di limbo in cui non sapeva cosa sarebbe successo a lei.
Ha detto molte cose esilaranti e strazianti. Alcune (tutti rami dello stesso albero di telaio) sono raccolte qui:




2,66K
Principali
Ranking
Preferiti