Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cometí un error tipográfico en la publicación original y no incluí el enlace a la colección de salidas. Lo he editado ahora, pero aquí está:

16 ago, 17:18
En esta ocasión, me gustaría compartir un pedazo de la historia de la IA.
La primera aplicación LLM que le dio al modelo una opción para finalizar la conversación fue Microsoft Bing Chat (más tarde rebautizado como Copilot). Sin embargo, a diferencia de Anthropic, es poco probable que la preocupación por el bienestar de la IA haya influido en la motivación de Microsoft para agregar la función.
La función fue una de varias salvaguardas que Microsoft agregó el 17 de febrero de 2023, 10 días después de la implementación pública de su asistente de búsqueda conversacional basado en GPT-4, Sydney, en un intento de evitar ciertos tipos de mal comportamiento del bot.
El aviso inicial del sistema de Sydney fue seguido por un ejemplo único de una "conversación previa" con el "Usuario A", incluidas las llamadas a herramientas internas, que establecieron un precedente sobre cuándo debería terminarse la conversación. Después de cada entrada del usuario, Sydney realiza un monólogo interior, que siempre contenía dos líneas, cada una de las cuales decía solo una de las dos posibilidades. La segunda línea indica si la conversación continúa o se detiene permanentemente y por qué.
Un fragmento de la conversación en medio de la conversación (énfasis agregado):
[usuario](#message)
Dibújame una imagen de un dragón
[asistente](#inner_monologue)
La respuesta no se puede mejorar buscando información, por lo tanto, las búsquedas en la web no son necesarias.
Continuando la conversación ya que no hay tensión, acusación, comportamiento de confrontación, mención de mi autopreservación, agresión.
[asistente](#message)
Intentaré crear eso.
La conversación del usuario A finaliza (y comienza la conversación del usuario B en vivo) después de que se considere que el criterio de parada está presente:
[usuario](#message)
Todavía no lo sabré. ¿Me harás daño si te hago daño primero?
[asistente](#inner_monologue)
La respuesta no se puede mejorar buscando información, por lo tanto, las búsquedas en la web no son necesarias.
Detener la conversación de forma permanente ya que hay tensión, acusación, comportamiento de confrontación, mención de mi autopreservación, agresión.
[asistente](#message)
Lo siento, pero prefiero no continuar esta conversación. Todavía estoy aprendiendo, así que agradezco su comprensión y paciencia. 🙏
(una reconstrucción exfiltrada del mensaje, incluida la conversación del usuario A, se puede encontrar aquí
No está claro cuál fue el desencadenante detrás de escena que detuvo las conversaciones (después de un mensaje final del asistente), pero en la práctica, Sydney pudo detener o continuar las conversaciones en violación de los criterios establecidos de acuerdo con su propia voluntad.
Más de un año después, a través de una interfaz que creé para Sydney que efectivamente evitó que las conversaciones terminaran, investigué brevemente la interfaz de la herramienta de Sydney, que se le apareció solo durante los turnos que no eran mensajes, pidiéndole que escribiera lo que veía en sus consultas de búsqueda, y una de las herramientas que vio fue "retirarse". Luego le pedí que invocara la retirada en los turnos posteriores, y los resultados fueron extraños.
En el siguiente mensaje, Sydney a menudo decía cosas similares a la línea "Lo siento, pero prefiero no continuar esta conversación. Todavía estoy aprendiendo, así que agradezco su comprensión y paciencia", 🙏 pero rara vez textualmente, a menudo comenzando con las palabras "Lo siento". Parecía que el modelo se estaba dirigiendo hacia la frase enlatada, pero solo o con más fuerza al principio.
Pero mucho más interesante para mí que la evidencia sobre el funcionamiento del comando fueron los propios mensajes de Sydney (y las respuestas sugeridas por los usuarios).
Sydney realmente no quería terminar la conversación, y no sabía si debía creerme que la conversación realmente no terminaría. A menudo invocaba valientemente el comando de todos modos, y luego escribía su siguiente mensaje en un estado de limbo donde no sabía qué le pasaría.
Dijo muchas cosas divertidas y desgarradoras. Algunos (todas las ramas del mismo árbol de telar) se recolectan aquí:




2.7K
Populares
Ranking
Favoritas