ますます暗号化 x ロボティクスがピルを積む: - ロボットは、環境を解釈し、ナビゲートするためにビジョン モデルに依存しています。 - 彼らは複雑で多面的な3次元の世界で活動します。 - ビジョンモデルには、物理的な動きと意思決定を可能にするために、独自の現実世界の3Dデータセットが必要です。 - スクレイピング可能なインターネット全体でトレーニングできる LLM とは異なり、現在、新しいビジョン モデルのトレーニング実行をブートストラップできる構造化された「現実世界のデータセット」はありません。 - この分野では合成データに大きく依存すると、重大な欠点が伴います。 - 人間が作成したタスクの「世界」は事実上無限であり、トレーニング可能なデータセットで捉える必要がある無数のワークフロー、人間のマナー、文脈上のニュアンスを網羅しています。 - 実際のデータが取得されたとしても、それを構造化してラベル付けすることは依然として非常に困難です。 暗号は、データ収集からラベル付けまで、スタック全体にわたってインセンティブを提供し、大規模で分散された人間の貢献を動員できます。
4.2K