1/ Vi introduserer Judge: Gensyns verifiserbare AI-evalueringssystem. Tradisjonelle evaluatorer er avhengige av lukkede API-er – ugjennomsiktige, stille oppdaterte og umulige å reprodusere. Dommeren utfører en forhåndsavtalt, deterministisk AI-modell mot virkelige inndata og forplikter seg til å bli utfordret offentlig.
35,32K