¡Muchas cosas ocultas en los modelos base - suprimidas por el post-entrenamiento pero aún accesibles usando trucos ingeniosos!
Omar Shams
Omar Shams16 ago, 09:08
(código del entrenador trl a continuación) ¿cómo escalas la búsqueda de modelos de lenguaje? ¿puede un modelo de lenguaje ser guiado hacia la resolución de nuevos problemas que normalmente no puede resolver únicamente a través de un muestreo guiado sin entrenar el modelo en absoluto? resulta que la respuesta es un poco sí. esto tiene importantes implicaciones para la investigación posterior al entrenamiento y la seguridad.
4,74K