DeepSeekが最近公開した統合マルチモーダルフレームワーク「JanusFlow」は、画像の理解と生成タスクを同時に処理できる強力なツールです。特に、複雑な背景や様々な姿勢の人物画像にも対応しています。
特徴:
- 視覚理解性能:MMBenchで74.9点、SeedBenchで70.5点、GQAで60.3点を獲得し、LLaVA-v1.5やQwen-VL-Chatを上回る成績を達成。
- 画像生成性能:Stable Diffusion v1.5やSDXLを超える品質で、優れた画像生成能力を発揮。
- 画像の視覚品質と意味的一貫性:多様なテキストプロンプトに従い、高品質で意味的一貫性のある画像生成が可能。
対応タスク:
- マルチモーダル理解において、質問応答、グラフ解釈、オブジェクトカウントなどの視覚理解タスクを処理可能。
リンク:
JanusFlowは、多様な画像理解・生成タスクに対応できる次世代マルチモーダルフレームワークとして注目されています。