動画を用いて学習する世界初の汎用的なコンピューターアクションモデルを目指す"Standard Intelligence"が$75Mを調達

Standard Intelligenceは、SequoiaとSpark Capitalがリードし、著名なAI研究者であるAndrej Karpathyを含む複数のエンジェル投資家から$75Mを調達した。

動画を用いて学習する世界初の汎用的なコンピューターアクションモデルを目指すStandard Intelligenceは、コンピュータ操作タスク向けに特化して最適化されたFDM-1という基盤モデルを開発しています。

言語モデルのスケール競争と、それを取り巻くエージェントエコシステムは非常に激化しています。問題を推論し、それを解決するためのコードを書くコーディングエージェントは、すでに大きな進歩をもたらしています。

しかし、ある野心的な若いチームは異なる賭けをしています。最も有望な汎用コンピュータエージェントへの道は、言語やスクリーンショット、ツール呼び出しではなく、生の動画のスケーリングにあるのではないかという考えです。

Standard Intelligenceの仮説は、汎用エージェントを構築する最良の方法は、コンピュータ使用に関する完全な動画事前学習であるというものです。なぜなら、それだけがアクションデータを真にスケールできるアプローチだからです。テキストトークンを予測する代わりに、このモデルは画面の生データからコンピュータの使い方を学習し、目の前のピクセルから次のマウスの動き、クリック、キーストロークを予測します。

これは、コンピュータ画面上のナレッジワークにTesla FSDのアプローチを適用したものです。

この賭けは、非常に逆張りであると同時に、「苦い教訓」に深く影響されています。ワークフローを手作業で設計したり、言語モデルをますます複雑な仕組みで包み込むのではなく、Standard Intelligenceは新しい事前学習パラダイムに賭けています。すなわち、コンピュータ使用の生のストリームをモデルに与え、それを積極的にスケールし、データから汎用性が自然に生まれるようにするというものです。

動画は扱いにくいものです。計算コストが高く、経済的にも高価で、技術的にも厳しい領域です。これまで動画をAGIに向けてスケールしようとした試みの多くは途中で頓挫してきました。

Standard Intelligenceのチームは明確に「動画の専門家ではない」と言います。彼らは動画という媒体を扱う方法についての長年の前提を持っていたわけではありません。その代わりに、各課題を第一原理から考え直す必要があり、並外れた楽観性、創造性、そして粘り強さでそれらの課題に取り組んできました。

その結果は印象的です。1100万時間のコンピュータ操作データセットは業界最大規模です。競合手法より約50倍トークン効率の高い動画エンコーダにより、30FPSの動画を約2時間分、100万トークンのコンテキストウィンドウ内に収めることが可能です。また、San Franciscoに設置された30ペタバイトのストレージクラスターは、$500K未満で構築されており、ハイパースケーラーの代替案と比較して約20倍安価です。

Standard Intelligenceの最初の基盤モデルであるFDM-1は、大規模にコンピュータ操作動画で直接トレーニングされたモデルであり、このパラダイムの将来像を垣間見せています。この汎用モデルは、BlenderでCADギアを生成し、1時間のファインチューニング後にSan Franciscoの街区を車で走行し、好奇心旺盛な人間のように状態空間を探索することでソフトウェアのバグを見つけることができます。

共同創業者のGalen MeadとDevansh Pandeyは、2022年にAtlas Fellowshipで10代の頃に出会いました。このプログラムはAIアラインメントやAGIに関心を持つ高校生向けの選抜フェローシップです。

GalenとDevanshはAGIの実現に対して非常に真剣であり、安全にそれを達成することにも強い責任感を持っています。両者とも年齢以上に成熟しており(それぞれ21歳と20歳)、この課題に取り組む緊急性から学部課程を中退しています。

GalenとDevanshは、センス、粘り強さ、技術的な勇気、そして野心の組み合わせで際立っています。それはプロダクト思考、研究の方向性、そしてFDM-1のレポートそのものにも表れています。

6人からなるチーム全体は小規模ながら非常に優秀です。Neel、Yudhister、Ulisse、Ryanはいずれも個性的で卓越したメンバーです。彼らは従来のキャリアパス(著名な学位や大手企業からのオファー)を断り、この大胆なミッションに共に取り組むことを選びました。

動画は長らくAIの強力なトレーニング基盤でした。DQNはAtari環境においてピクセルから直接豊かな行動を学習できることを示しました。Teslaは動画モデルをスケールさせ、自動運転車やロボットが物理世界をナビゲートできるようにしました。

しかし、汎用ナレッジエージェントを目指す競争において、動画ファーストの事前学習は依然として非主流のアイデアです。

Standard Intelligenceは、それが長く非主流のままでいることはないと考えています。

TagsAI