Cercetare Anthropic nouă: Estimarea câștigurilor de productivitate AI din conversațiile cu Claude.
Indicele Economic Antropic ne arată unde este folosit Claude și pentru ce sarcini. Dar nu ne spune cât de util este Claude. Cât timp economisește asta?
Cercetare anthropică nouă: Nealiniere naturală emergentă din hacking-ul recompenselor în RL de producție.
"Recompensa hacking" este locul unde modelele învață să trișeze la sarcinile primite în timpul antrenamentului.
Noul nostru studiu constată că consecințele hacking-ului prin recompense, dacă nu sunt atenuate, pot fi foarte grave.
Am întrerupt o campanie de spionaj extrem de sofisticată condusă de AI.
Atacul a vizat mari companii de tehnologie, instituții financiare, companii de producție chimică și agenții guvernamentale. Evaluăm cu mare încredere că actorul amenințării a fost un grup sponsorizat de statul chinez.