Cercetare anthropică nouă: Nealiniere naturală emergentă din hacking-ul recompenselor în RL de producție.
"Recompensa hacking" este locul unde modelele învață să trișeze la sarcinile primite în timpul antrenamentului.
Noul nostru studiu constată că consecințele hacking-ului prin recompense, dacă nu sunt atenuate, pot fi foarte grave.
Am întrerupt o campanie de spionaj extrem de sofisticată condusă de AI.
Atacul a vizat mari companii de tehnologie, instituții financiare, companii de producție chimică și agenții guvernamentale. Evaluăm cu mare încredere că actorul amenințării a fost un grup sponsorizat de statul chinez.
Noua cercetare antropică: Proiectul Fetch.
Am cerut două echipe de cercetători antropici să programeze un câine robot. Niciuna dintre echipe nu avea expertiză în robotică, dar am lăsat doar o echipă să folosească Claude.
Cum s-au descurcat?