IDEA研究院は、汎用視覚大規模モデル「DINO-X」を発表しました。このモデルは、オープンワールドの物体認識に対応し、テキスト提示、視覚提示、カスタム提示、さらには無提示入力をサポートしています。
主な特徴:
- 物体検出、セグメンテーション、姿勢推定など、複数のタスクを同時に処理可能。
- 物体の位置を囲み、正確な輪郭を提供。
- 人体や手部の姿勢を認識し、物体の詳細な説明を提供。
- 画像内の同じ物体を数えることができ、特定の画像領域に関する質問にも回答可能。
- COCOデータセットで優れた性能を発揮し、特に遮蔽や混雑などの複雑なシーンにおいて強力な結果を示します。
提供されるバージョン:
- DINO-X Pro:完全版で、さまざまな複雑なシーンに対応。
- DINO-X Edge:軽量版で、推論速度が最適化され、通常のデバイスでも高速に実行可能。
APIインターフェースも提供されています。
ブログ:DINO-Xについて
論文:arXiv論文
APIドキュメント:DINO-X API