次世代のAI、汎用人工知能(AGI) 開発段階で人間レベルの知能に到達か?
(※本記事は『THE CONVERSATION』に2024年12月24日付で掲載された記事を、許可を得て掲載しています)

新たな人工知能(AI)モデルが「汎用的な知能」を測るために設計されたテストで、人間に匹敵する成績を収めた。
2024年12月20日、OpenAI社の「o3」システムがARC-AGIベンチマークで85%のスコアを獲得した。これまでのAI最高スコア(55%)を大きく上回り、平均的な人間とほぼ同等の結果を出した。さらに、非常に難易度の高い数学テストでも優秀な成績を収めた。
「汎用人工知能(AGI)」の開発は、主要なAI研究機関すべてが掲げる目標だ。OpenAI社が今回示した結果は、少なくともこのゴールに向けた大きな一歩のように見える。
もちろん懐疑的な声もあるが、多くのAI研究者や開発者は「何かが変わった」と感じている。汎用人工知能(AGI)が実現する可能性が、以前より身近で喫緊の課題に思えてきたのだ。果たして彼らの見方は正しいのだろうか。
一般化と知能
o3モデルのテスト結果を正確に理解するには、ARC-AGIテストの概要を知っておく必要がある。技術的には、「初めて見る新しい状況に対応するとき、どれだけ少ない事例から迅速に適切な判断ができるか(サンプル効率)」を測るテストだ。
ChatGPT(GPT-4)のようなAIシステムはサンプル効率が高いわけではない。膨大な文書データから学習し、確率的に「次に来る語句」を推定する「ルール」を構築しているためだ。
このアプローチは、一般的なタスクに対応するには十分優秀だが、難易度が高いタスクになると学習データ(サンプル)が少ないため、成果を上げにくい場合が多い。

AIが少ないサンプルから学習して状況に適応できるようになるまでは、AIが担えるのは繰り返し作業が多い業務や、たまに失敗しても大きな問題にならない仕事に限定される。
未知の課題を限られたデータだけで正しく解決できる能力は「一般化能力」と呼ばれ、知能を語る上で非常に重要、むしろ不可欠な要素だと広く考えられている。
AGIの一般化能力を測るテスト
ARC-AGIベンチマークテストは、小さなマス目(グリッド)のパターンを使った問題でサンプル効率を測定する。下の例のように、左のグリッドをどう操作して右のグリッドに変換したか、その「ルール・法則」を見つけ出すことが求められる。

続きは無料会員登録後、ログインしてご覧いただけます。
-
記事本文残り70%
月刊「事業構想」購読会員登録で
全てご覧いただくことができます。
今すぐ無料トライアルに登録しよう!
初月無料トライアル!
- 雑誌「月刊事業構想」を送料無料でお届け
- バックナンバー含む、オリジナル記事9,000本以上が読み放題
- フォーラム・セミナーなどイベントに優先的にご招待
※無料体験後は自動的に有料購読に移行します。無料期間内に解約しても解約金は発生しません。