汎用視覚大規模モデル「DINO-X」

IDEA研究院は、汎用視覚大規模モデル「DINO-X」を発表しました。このモデルは、オープンワールドの物体認識に対応し、テキスト提示、視覚提示、カスタム提示、さらには無提示入力をサポートしています。

主な特徴:

  • 物体検出、セグメンテーション、姿勢推定など、複数のタスクを同時に処理可能。
  • 物体の位置を囲み、正確な輪郭を提供。
  • 人体や手部の姿勢を認識し、物体の詳細な説明を提供。
  • 画像内の同じ物体を数えることができ、特定の画像領域に関する質問にも回答可能。
  • COCOデータセットで優れた性能を発揮し、特に遮蔽や混雑などの複雑なシーンにおいて強力な結果を示します。

提供されるバージョン:

  1. DINO-X Pro:完全版で、さまざまな複雑なシーンに対応。
  2. DINO-X Edge:軽量版で、推論速度が最適化され、通常のデバイスでも高速に実行可能。

APIインターフェースも提供されています。

ブログDINO-Xについて
論文arXiv論文
APIドキュメントDINO-X API

コメントを残す