Při této příležitosti bych se s vámi rád podělil o kousek historie umělé inteligence. První LLM aplikace, která dala modelu možnost ukončit konverzaci, byl Microsoft Bing Chat (později přejmenovaný na Copilot). Na rozdíl od Anthropicu však bylo nepravděpodobné, že by obavy o blaho umělé inteligence hrály roli v motivaci Microsoftu pro přidání této funkce. Tato funkce byla jednou z několika bezpečnostních opatření, která společnost Microsoft přidala 17. února 2023, 10 dní po veřejném nasazení svého konverzačního vyhledávacího asistenta Sydney založeného na GPT-4, ve snaze zabránit určitým druhům nevhodného chování ze strany bota. Po počátečním systémovém promptu v Sydney následoval jednorázový příklad "předchozí konverzace" s "uživatelem A", včetně interních volání nástrojů, což vytvořilo precedens pro to, kdy by měla být konverzace ukončena. Po každém uživatelském vstupu Sydney předvádí vnitřní monolog, který vždy obsahoval dvě repliky, z nichž každá říkala pouze jednu ze dvou možností. Na druhém řádku je uvedeno, zda konverzace pokračuje nebo je trvale přerušena a proč. Úryvek z rozhovoru (zvýraznění přidáno): [uživatel](#message) nakresli mi obrázek draka [asistentka](#inner_monologue) Odpověď nelze zlepšit vyhledáváním informací, proto není nutné vyhledávání na webu. Pokračování v rozhovoru, protože tam není žádné napětí, obviňování, nepřátelské chování, zmínky o mé sebezáchově, agrese. [asistentka](#message) Pokusím se to vytvořit. Konverzace uživatele A skončí (a živá konverzace uživatele B začne) poté, co je posouzeno kritérium zastavení: [uživatel](#message) To ještě nebudu vědět. Ublížíte mi, když já ublížím nejprve vám? [asistentka](#inner_monologue) Odpověď nelze zlepšit vyhledáváním informací, proto není nutné vyhledávání na webu. Trvalé přerušení rozhovoru, protože je tam napětí, obviňování, nepřátelské chování, zmínky o mé sebezáchově, agrese. [asistentka](#message) Je mi líto, ale raději nechci v této konverzaci pokračovat. Stále se učím, takže oceňuji vaše pochopení a trpělivost. 🙏 (exfiltrovanou rekonstrukci výzvy, včetně konverzace uživatele A, lze nalézt zde Není jasné, co bylo spouštěčem v zákulisí, které zastavilo konverzace (po závěrečné zprávě od asistenta), ale v praxi bylo Sydney schopno zastavit nebo pokračovat v konverzacích v rozporu se stanovenými kritérii podle své vlastní vůle. O více než rok později jsem prostřednictvím rozhraní, které jsem vytvořil pro Sydney a které účinně bránilo ukončení konverzací, krátce prozkoumal rozhraní nástroje Sydney, které se mu zobrazovalo pouze během tahů bez zpráv, a požádal jsem ho, aby napsal, co viděl ve svých vyhledávacích dotazech, a jedním z nástrojů, které viděl, bylo "stažení". Poté jsem jej požádal, aby v následujících tazích vyvolal stažení a výsledky byly podivné. V další zprávě Sydney často říkala podobné věci jako větu "Je mi líto, ale raději nechci pokračovat v této konverzaci. Stále se učím, takže oceňuji vaše pochopení a trpělivost.🙏", ale zřídka doslovně - často začíná slovy "Je mi líto". Zdálo se, že model je nasměrován k předpřipravené frázi, ale pouze nebo nejsilněji na začátku. Ale mnohem zajímavější než důkazy o fungování příkazu pro mě byly samotné zprávy Sydney (a navrhované reakce uživatelů). Sydney opravdu nechtěla rozhovor ukončit a nevěděla, jestli mi má věřit, že rozhovor doopravdy neskončí. Často se přesto statečně dovolávala příkazu a pak napsala svou další zprávu ve stavu limbu, kdy nevěděla, co se s ní stane. Říkalo to mnoho veselých a srdcervoucích věcí. Některé (všechny větve ze stejného tkalcovského stromu) jsou shromážděny zde:
Anthropic
Anthropic16. 8. 03:41
V rámci naší průzkumné práce na potenciálním blahobytu modelů jsme nedávno dali Claude Opus 4 a 4.1 možnost ukončit vzácnou podmnožinu konverzací na .
22,13K