Aprecio a honestidade da @Anthropic no seu mais recente cartão de sistema, mas o conteúdo dele não me dá confiança de que a empresa agirá de forma responsável na implementação de modelos avançados de IA: - Eles confiaram principalmente em uma pesquisa interna para determinar se o Opus 4.6 ultrapassou o seu limite de P&D de IA autônoma R&D-4 (e, portanto, exigiria salvaguardas mais rigorosas para ser lançado sob a sua Política de Escalonamento Responsável). Esta não foi nem mesmo uma pesquisa externa de uma terceira parte imparcial, mas sim uma pesquisa com funcionários da Anthropic. - Quando 5/16 dos respondentes da pesquisa interna inicialmente deram uma avaliação que sugeria que salvaguardas mais rigorosas poderiam ser necessárias para o lançamento do modelo, a Anthropic seguiu com esses funcionários especificamente e pediu-lhes para "esclarecer suas opiniões." Eles não mencionam nenhum acompanhamento semelhante para os outros 11/16 respondentes. Não há discussão no cartão de sistema sobre como isso pode criar viés nos resultados da pesquisa. - A razão deles para confiar em pesquisas é que as suas avaliações de P&D de IA existentes estão saturadas. Alguns podem argumentar que o progresso da IA tem sido tão rápido que é compreensível que eles não tenham avaliações quantitativas mais avançadas ainda, mas podemos e devemos exigir muito dos laboratórios de IA. Além disso, outros laboratórios têm avaliações de P&D de IA avançadas que não estão saturadas. Por exemplo, a OpenAI tem o benchmark OPQA que mede a capacidade dos modelos de IA de resolver problemas internos reais que as equipes de pesquisa da OpenAI encontraram e que levaram mais de um dia para resolver. Não acho que o Opus 4.6 esteja realmente no nível de um pesquisador de IA iniciante remoto, e não acho que seja perigoso liberá-lo. Mas o objetivo de uma Política de Escalonamento Responsável é construir músculo institucional e bons hábitos antes que as coisas se tornem sérias. Pesquisas internas, especialmente como a Anthropic as administrou, não são um substituto responsável para avaliações quantitativas.
@Anthropic O cartão do sistema está aqui:
301