MetaはSAM 3Dをリリースしましたが、もっと興味深いのは、長年この分野を妨げてきた3Dデータのボトルネックをほぼ解消したことです。 実際の混沌とした世界のために3Dのグラウンドトゥルースを手動で作成・スキャンするのは、大規模に見るとほぼ不可能です。 しかし、もし人間がモデルの出力をランク付けするだけならどうでしょうか?奇妙なエッジケースは実際の3Dアーティストにモデリングしてもらい、それを再度ループさせます。突然、画像に注釈をつけられるようになります。 基本的には3D再構成のためのRLHFのようなものです。合成データは事前学習であり、実際のランキングはアライメントです。彼らはその全ての手法を借りて、実際に機能しているのです。 2つのモデルがあります。1つはオブジェクトやシーン用、もう1つは人間用です。すでにFacebookマーケットプレイスで発送しているので、購入前にそのランプや椅子が自分の部屋に合うかどうか確認できます。 また、モデル、コード、人体リグなどすべてを商業ライセンスで公開しています。そして、シミュレーションと現実のギャップを埋めるために、実際に混沌としたリアル世界の画像の評価セットを作成しました。 しかし、データエンジンの件が一番興味深いです。3Dはずっと現実的な現実に縛られてきました。もし検証が作成よりも容易にスケールすれば、ゲーム全体が一変します。