OpenAIは、次世代のAIモデル「o3」を発表予定ですが、使用にはもう少し時間がかかるようです。また、o3のミニバージョン「o3Mini」も同時に登場します。
以下は、o3の主な性能向上点です:
- プログラミング能力:o3は、ソフトウェア工学の試験「SWE-Bench Verified」において71.7%のスコアを達成し、o1より20%以上の改善を見せました。
- プログラミング競技能力:o3は、CodeForcesの競技プログラミングプラットフォームでELOスコア2727を記録し、o1の1891を大きく上回りました。
- ARCAGIテスト:o3は87.5%のスコアを達成し、85%の人間の平均を超えました。
- 数学能力:o3はAIME(数学コンテスト)試験で96.7%の正答率を記録し、o1の83.3%を大きく上回っています。
さらに、o3-miniでは、低・中・高の三段階の思考レベルが設定でき、中程度の思考時間でもo1を超えるパフォーマンスが発揮できます。