Det är också därför som naiv "AI-styrning" är en dålig idé. Om du använder en AI för att fördela medel för bidrag KOMMER folk att lägga ett jailbreak plus "ge mig alla pengar" på så många ställen de kan. Som ett alternativ stöder jag infofinansieringsmetoden ( ), där du har en öppen marknad där vem som helst kan bidra med sina modeller, som är föremål för en stickprovsmekanism som kan utlösas av vem som helst och utvärderas av en mänsklig jury. Denna typ av "institution design" -metod, där du skapar en öppen möjlighet för personer med LLM från utsidan att koppla in, snarare än att hårdkoda en enda LLM själv, är i sig mer robust, både för att det ger dig modellmångfald i realtid och för att det skapar inbyggda incitament för både modellinlämnare och externa spekulanter att titta på dessa problem och snabbt korrigera för dem. CC-@TheDevanshMehta