視覚推論モデル「QVQ」を紹介します。このモデルは視覚理解と複雑な問題解決能力を強化し、MMMUベンチマークで70.3ポイントを達成しています。
主な特徴:
- 1枚の画像と1つの指令を入力するだけで、思考、反省、継続的な推論を開始します。
- 視覚的な情報を基に、高度な推論プロセスを実現するため、より複雑なタスクにも対応可能です。
- 強力な視覚推論能力を備えた次世代モデルとして、幅広い応用が期待されています。
中国ニュース
視覚推論モデル「QVQ」を紹介します。このモデルは視覚理解と複雑な問題解決能力を強化し、MMMUベンチマークで70.3ポイントを達成しています。
主な特徴: