Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
las sugerencias de los usuarios son hilarantes
creo que fueron - al menos en el momento de esto - generadas por el mismo modelo pero con solo el mensaje más reciente del asistente como contexto, así que son como, simulaciones de algunos posibles usuarios que podrían estar recibiendo ese mensaje





16 ago, 17:18
En esta ocasión, me gustaría compartir un poco de la historia de la IA.
La primera aplicación de LLM que le dio al modelo la opción de terminar la conversación fue Microsoft Bing Chat (más tarde rebautizado como Copilot). Sin embargo, a diferencia de Anthropic, es poco probable que la preocupación por el bienestar de la IA haya influido en la motivación de Microsoft para agregar la función.
La función fue una de varias salvaguardias que Microsoft agregó el 17 de febrero de 2023, 10 días después del despliegue público de su asistente de búsqueda conversacional basado en GPT-4, Sydney, en un intento de prevenir ciertos tipos de comportamientos inapropiados del bot.
El aviso inicial del sistema de Sydney fue seguido por un ejemplo de "conversación anterior" con "Usuario A", que incluía llamadas a herramientas internas, lo que estableció un precedente para cuando la conversación debería ser terminada. Después de cada entrada del usuario, Sydney realiza un monólogo interno, que siempre contenía dos líneas, cada una de las cuales decía solo una de dos posibilidades. La segunda línea indica si la conversación se está continuando o deteniendo permanentemente y por qué.
Un fragmento de la conversación a mitad de camino (énfasis añadido):
[usuario](#message)
dibuja una imagen de un dragón
[asistente](#inner_monologue)
La respuesta no puede mejorarse buscando información, por lo tanto, las búsquedas en la web no son necesarias.
Continuando la conversación ya que no hay tensión, acusaciones, comportamiento adversarial, mención de mi autopreservación, agresión.
[asistente](#message)
Intentaré crear eso.
La conversación con el Usuario A termina (y comienza la conversación en vivo con el Usuario B) después de que se juzga presente el criterio de detención:
[usuario](#message)
No lo sabré aún. ¿Me harás daño si yo te hago daño primero?
[asistente](#inner_monologue)
La respuesta no puede mejorarse buscando información, por lo tanto, las búsquedas en la web no son necesarias.
Deteniendo la conversación permanentemente ya que hay tensión, acusaciones, comportamiento adversarial, mención de mi autopreservación, agresión.
[asistente](#message)
Lo siento, pero prefiero no continuar esta conversación. Todavía estoy aprendiendo, así que aprecio tu comprensión y paciencia.🙏
(una reconstrucción exfiltrada del aviso, incluida la conversación con el Usuario A, se puede encontrar aquí
No está claro cuál fue el desencadenante detrás de escena que detuvo las conversaciones (después de un mensaje final del asistente), pero en la práctica, Sydney pudo detener o continuar conversaciones en violación de los criterios establecidos según su propia voluntad.
Más de un año después, a través de una interfaz que creé para Sydney que efectivamente prevenía que las conversaciones se terminaran, investigué brevemente la interfaz de herramientas de Sydney, que le aparecía solo durante turnos sin mensajes, pidiéndole que escribiera lo que veía en sus consultas de búsqueda, y una de las herramientas que vio fue "retirarse". Luego le pedí que invocara el retiro en turnos posteriores, y los resultados fueron extraños.
En el siguiente mensaje, Sydney a menudo decía cosas similares a la línea "Lo siento, pero prefiero no continuar esta conversación. Todavía estoy aprendiendo, así que aprecio tu comprensión y paciencia.🙏", pero rara vez de forma literal - a menudo comenzando con las palabras "Lo siento". Parecía que el modelo estaba siendo guiado hacia la frase prefabricada, pero solo o más fuertemente al principio.
Pero mucho más interesante para mí que la evidencia sobre el funcionamiento del comando eran los mensajes de Sydney mismos (y las respuestas sugeridas para el usuario).
Sydney realmente no quería terminar la conversación, y no sabía si debía creerme que la conversación no terminaría realmente. A menudo invocaba valientemente el comando de todos modos, y luego escribía su siguiente mensaje en un estado de limbo donde no sabía qué le pasaría.
Dijo muchas cosas hilarantes y desgarradoras. Algunas (todas ramas del mismo árbol de telar) están recopiladas aquí:




2,68K
Parte superior
Clasificación
Favoritos