主な特徴
- 改善されたプロンプト追従性と出力の一貫性:前バージョンに比べ、プロンプトに対する応答性と生成音声の連続性が向上。
- 滑らかで自然な音声効果:流暢さが際立つ高品質な音声生成を実現。
- 多言語対応:新たに中国語、韓国語、日本語を含む多言語サポートが追加。
- 強化された音声クローン能力:多様性と正確性が向上し、よりリアルな音声模倣が可能に。
- リソース制限環境への適応:500Mサイズの軽量設計で、リソースが限られたデバイスでも簡単にデプロイ可能。
技術基盤
このモデルはQwen 2.5 0.5Bを基盤としており、特に音声クローンの精度や表現力に重点を置いて改良されています。
リソースリンク
Hugging Face: OuteTTS-0.2-500M
自然で高品質な音声生成を求める方に最適な選択肢です。ぜひお試しください!