Ultravox v0.4.1 は、音声理解に特化したオープンソースの多モーダルリアルタイム音声モデルで

初回応答時間: 約 150ミリ秒 。
生成速度: 約 60トークン/秒 。

Ultravox v0.4.1 は、音声理解に特化したオープンソースの多モーダルリアルタイム音声モデルで、その性能は GPT-4o に迫ります。音声を直接理解し、テキスト形式で出力するため、従来の音声認識（ASR）モデルを必要としません。

コメントを残す コメントをキャンセル