空間知能のWorld Labs、フロンティアAIの3D空間理解の限界を浮き彫りにする「ESI-Bench」と10億ドル調達で対峙する

スタンフォード大学の研究チーム（共著者にFei-Fei Liが名を連ねる）が、3D空間における埋め込み型空間知能（Embodied Spatial Intelligence）を評価するベンチマーク「ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop」を公表しました。本ベンチマークは、世界最先端のフロンティアマルチモーダルAIモデル群が、事前に切り出された画像を「解釈」する従来課題ではうまく機能する一方で、3D環境内を能動的に動き回って情報を取りに行く必要のあるタスクになった瞬間に、誤った行動を選び続け、自分の誤りを正してくれる視点を飛ばし、不十分なエビデンスのまま「高い確信度で誤答にコミットする」傾向があることを定量的に示したものです。論文ではこの失敗パターンを「アクション・ブラインドネス（action blindness）」と命名しており、ロボティクスやシミュレーションエンジニア、フィジカルワールドで動くAIエージェントを構築する開発者にとっては、既存のリーダーボードでは捕捉できなかったテストが供給された格好となります。このギャップを商業的に塞ぎにいくのが、Fei-Fei Liが共同創業しCEOを務めるWorld Labsであり、同社はこの3カ月前に10億ドル（USD 1 billion）の資金調達ラウンドをクローズしています。

ESI-Benchは、3D空間内の物理シミュレータ「OmniGibson」上に、スタンフォードのアクティビティデータセット「BEHAVIOR-1K」を組み合わせて構築されており、10カテゴリ・29サブカテゴリ・約3,000タスクから構成されます。タスク設計のベースには、ハーバード大学の発達心理学者Elizabeth Spelkeが提唱する「コア・ナレッジ・システムズ（人間の乳児が用いるオブジェクト・エージェント・数・空間・形に関する領域固有の認知システム）」が据えられています。従来の空間知能ベンチマークが「シーンの正しいビューが事前に渡された前提（オラクル観測）」を置いていたのに対し、ESI-Benchはこれを取り除き、エージェント自身が「認知（パーセプション）」「移動（ロコモーション）」「操作（マニピュレーション）」のうちどの能力をどの順序で使うべきかを決定し、必要なエビデンスを能動的に積み上げる必要があります。具体的なタスクには、2つの容器の液体保持容量を実際に動かしながら比較する、変形可能なオブジェクトが表面にフィットするかを予測する、与えられた質量・幾何条件下でタワーが安定するかを判定する、鏡の反射と実シーンを再配置しながら見分けるといった、「視点を変えに行く」アクションを経なければ正答に届かない問題が並びます。実験の結果、能動的探索（active exploration）は受動的観測（passive observation）に対して大幅に上回ったものの、最良のモデルでもオラクル行動選択（最良の行動を毎回選んだ場合）と人間性能には及ばず、最大の失敗要因は「どの観測が情報量を持ち、いつそれを取りに行くべきかが特定できない」というアクション・ブラインドネスでした。人間は曖昧なシーンに直面すると「自分の現仮説を反証してくれる視点」を取りに行きますが、現行のマルチモーダルLLMはその逆で、エビデンス品質に関わらず高い確信度で結論にコミットする傾向にあります。また副次的に、明示的な3D表現は深度依存タスクの推論を安定化させるものの、不完全な3D再構成は2Dベースラインよりむしろ有害になり得ることも示されています。あわせて、上海AI Laboratoryと北京師範大学が公開した別ベンチマーク「MMSI-Bench」では、OpenAIのo3が複数画像にまたがる空間推論で約40%の正答率（人間ベースライン97%）にとどまり、最強のオープンソースモデルでも約30%という結果が報告されており、両ベンチマークは異なるパラダイムから「言語学習ベースのスケーリングは、空間推論ギャップを十分に閉じてくれていない」という同一のメッセージを補強する形になっています。

これらのアカデミックな診断と、World Labsの商用戦略は、構造的に連動しています。World Labsは2025年11月に初の商用プロダクトとして「Marble」をローンチし、テキスト、画像、動画、または粗いレイアウト入力から永続的・編集可能な3D環境を生成できるツールとして提供を開始しました。生成された環境はガウス・スプラット（Gaussian Splats）、メッシュ、ビデオといった形式でエクスポートでき、Unreal EngineやUnityといったゲームエンジンに直接取り込むことが可能です。サブスクリプションは無料プランから、フル機能と商用利用権を含むMaxプラン（月額95ドル）までが用意されています。3カ月後の2026年2月、World Labsはこの基盤を一気にスケールさせる目的で10億ドルの資金調達をクローズし、AMD、NVIDIA、Autodesk、Emerson Collective、Fidelity Management and Research Company、Seaらが参加、Autodeskは戦略アドバイザーとして2億ドルを単独投資しました。Liはマニフェストにおいて、次世代のワールドモデルが「これまでにない水準の空間知能」を機械にもたらすと述べており、2026年2月のCiscoイベントでも「リアルな3D／4Dフィジカルワールドを理解し、推論し、相互作用し、ナビゲートする能力こそがフォンデーション（基盤）だ」と発言しています。2026年3月のFast Companyへのコメントでは、「ロボットを訓練・評価するには、衝突、物理、ダイナミクスを伴うインタラクション可能な3D環境が必要だ」とも語っており、Marbleおよびそれを支えるワールドモデル領域は、ESI-Benchがテストしているまさにそのパーセプション・アクション・ループ（知覚・行動の閉ループ）を訓練するための「サブストレート（基盤層）」として位置付けられます。なお、World Labsの本ベットは、Google DeepMindのGenieシリーズ、NVIDIAのCosmosプラットフォーム、Yann LeCunのAMI Labs（2026年初に10億ドルを調達）といった、異なるアーキテクチャ起点の競合と並走する形で進行しており、ワールドモデル分野は2026年のAI領域における最重要バトルフィールドの一つとなりつつあります。

World Labsについて
World Labsは、2024年にFei-Fei Li（共同創業者兼CEO）を中心に、Justin Johnson、Christoph Lassner、Ben Mildenhallの4名によって設立された、米国・カリフォルニア州サンフランシスコを本社とする「空間知能（spatial intelligence）」スタートアップで、3D世界を知覚し、生成し、推論し、相互作用するためのフロンティア・ワールドモデル（Large World Models）を構築することをミッションに掲げています。CEOのFei-Fei Liは、ImageNetの構築でディープラーニング革命の引き金を引いた研究者として知られ、スタンフォード大学のコンピュータサイエンス教授、同AI Lab元ディレクター、Stanford Human-Centered AI Instituteの共同ディレクターを務め、Google CloudではChief Scientistとしてエンタープライズ向けAIの実装にも関与してきました。共同創業者のJustin Johnson、Christoph Lassner、Ben Mildenhallは、機械学習、生成AI、コンピュータビジョン、コンピュータグラフィックスといった、ワールドモデル構築に不可欠なディシプリン群でそれぞれ世界的に認知された技術者です。直近の主要プロダクトは2025年11月にローンチした「Marble」で、テキスト・画像・動画・粗3Dレイアウトを入力に、永続的かつ高解像度の3Dワールドを生成・編集できる「マルチモーダル・ワールドモデル」として、ゲーム、VFX、VR、ロボティクス、ストーリーテリング、デザイン、シミュレーションなどへの応用が想定されています。資金調達面では、2024年9月のシードラウンドで2.3億ドルを調達し、創業から4カ月でユニコーン入りを達成した後、2026年2月にはAMD、NVIDIA、Autodesk（2億ドルを単独投資のうえ戦略アドバイザー就任）、Emerson Collective、Fidelity Management and Research Company、Seaらが参加する10億ドルの追加ラウンドをクローズしており、調達前報道では評価額50億ドル規模が見込まれていました。

TagsAIUnited States