A Meta acaba de lançar o SAM 3D, mas mais interessante é que eles basicamente resolveram o gargalo dos dados 3D que tem impedido o avanço do campo por anos. Criar ou escanear manualmente a verdade 3D para o mundo real bagunçado é basicamente impossível em grande escala. Mas e se você apenas fizer com que humanos classifiquem as saídas dos modelos? Direcione os casos estranhos para artistas 3D reais modelarem, e reintegre isso. De repente, você pode anotar como um milhão de imagens. É basicamente RLHF para reconstrução 3D. Dados sintéticos são pré-treinamento, a classificação do mundo real é alinhamento. Eles pegaram todo o maldito manual e realmente funciona. Dois modelos - um para objetos/cenas, um para humanos. Eles já estão enviando isso no FB Marketplace para que você possa ver se aquela lâmpada ou cadeira fica boa no seu quarto antes de comprar. Além disso, eles estão lançando tudo - modelos, código, seu rig de corpo humano sob licença comercial. E eles construíram um conjunto de avaliação de imagens reais bagunçadas do mundo real para ajudar a fechar a lacuna entre simulação e realidade. A coisa do motor de dados é a mais interessante, no entanto. O 3D tem sido limitado pela verdade fundamental para sempre. Se a verificação escalar mais facilmente do que a criação, de repente, todo o jogo muda.