Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aprecio a honestidade da @Anthropic no seu mais recente cartão de sistema, mas o conteúdo dele não me dá confiança de que a empresa agirá de forma responsável na implementação de modelos avançados de IA:
- Eles confiaram principalmente em uma pesquisa interna para determinar se o Opus 4.6 ultrapassou o seu limite de P&D de IA autônoma R&D-4 (e, portanto, exigiria salvaguardas mais rigorosas para ser lançado sob a sua Política de Escalonamento Responsável). Esta não foi nem mesmo uma pesquisa externa de uma terceira parte imparcial, mas sim uma pesquisa com funcionários da Anthropic.
- Quando 5/16 dos respondentes da pesquisa interna inicialmente deram uma avaliação que sugeria que salvaguardas mais rigorosas poderiam ser necessárias para o lançamento do modelo, a Anthropic seguiu com esses funcionários especificamente e pediu-lhes para "esclarecer suas opiniões." Eles não mencionam nenhum acompanhamento semelhante para os outros 11/16 respondentes. Não há discussão no cartão de sistema sobre como isso pode criar viés nos resultados da pesquisa.
- A razão deles para confiar em pesquisas é que as suas avaliações de P&D de IA existentes estão saturadas. Alguns podem argumentar que o progresso da IA tem sido tão rápido que é compreensível que eles não tenham avaliações quantitativas mais avançadas ainda, mas podemos e devemos exigir muito dos laboratórios de IA. Além disso, outros laboratórios têm avaliações de P&D de IA avançadas que não estão saturadas. Por exemplo, a OpenAI tem o benchmark OPQA que mede a capacidade dos modelos de IA de resolver problemas internos reais que as equipes de pesquisa da OpenAI encontraram e que levaram mais de um dia para resolver.
Não acho que o Opus 4.6 esteja realmente no nível de um pesquisador de IA iniciante remoto, e não acho que seja perigoso liberá-lo. Mas o objetivo de uma Política de Escalonamento Responsável é construir músculo institucional e bons hábitos antes que as coisas se tornem sérias. Pesquisas internas, especialmente como a Anthropic as administrou, não são um substituto responsável para avaliações quantitativas.

@Anthropic O cartão do sistema está aqui:
301
Top
Classificação
Favoritos
