視覚推論モデル「QVQ」を紹介します

視覚推論モデル「QVQ」を紹介します。このモデルは視覚理解複雑な問題解決能力を強化し、MMMUベンチマークで70.3ポイントを達成しています。

主な特徴:

  • 1枚の画像と1つの指令を入力するだけで、思考、反省、継続的な推論を開始します。
  • 視覚的な情報を基に、高度な推論プロセスを実現するため、より複雑なタスクにも対応可能です。
  • 強力な視覚推論能力を備えた次世代モデルとして、幅広い応用が期待されています。

ブログページ: https://qwenlm.github.io/zh/blog/qvq-72b-preview/

コメントを残す