Irodori-TTS 500M v2とVoiceDesign公開、絵文字制御とキャプション条件付き日本語TTS
Echo-TTS の設計を大筋で踏襲しつつ、日本語向けに Rectified Flow Diffusion Transformer(RF-DiT)と DACVAE の連続潜在上でフロー補間する TTS として Aratako による Irodori-TTS が公開されている。リポジトリは 2026-02-25 の Initial commit で始まり、2026-03-18 に v1 用コードを指す v1 タグが付与された。続く main では 2026-03-22 前後から v2 向け変更が進み、Hugging Face 上ではベース重み Aratako/Irodori-TTS-500M-v2 が 2026-03-23 に作成された。さらにキャプションで話し方を指定する VoiceDesign 系は、同 2026-03-30 に Aratako/Irodori-TTS-500M-v2-VoiceDesign が作成され、GitHub 側でも 2026-03-31 に該当機能追加コミットが積まれている。
主な機能・特徴
- 約 5 億パラメータ規模。v2 は 32 次元の
Semantic-DACVAE-Japanese-32dimコーデックで 48 kHz 波形を再構成し、学習ステップを従来比おおよそ 2.5 倍に延ばしたほか、テキスト前処理とデータフィルタを厳格化。 - 訓練テキストに絵文字注釈を付与したデータで学習しており、入力に特定の絵文字を埋め込むことで話し方・感情・効果音寄りの制御が可能。対応一覧はリポジトリおよびモデルカードから辿れる
EMOJI_ANNOTATIONS.md。 - ベースモデルは参照音声の DACVAE 潜在をパッチ化して条件化し、短いクリップからゼロショットで声質を近づける Voice Cloning に対応。
- VoiceDesign チェックポイントは参照音声系のエンコーダの代わりにキャプションエンコーダを用い、スタイル記述テキストで条件付けする経路が用意されている(ベース v2 とは別重み)。
- 推論は CLI、
gradio_app.py/gradio_app_voicedesign.py、Hugging Face Hub のチェックポイント読み込みに対応。ホスト済みデモ用 Space へのリンクもモデルカードに記載。 - コードは MIT。公開重みもモデルカード上 MIT とされ、なりすましや誤情報用途を禁じる倫理上の注意が併記されている。
入力は日本語に限られ、絵文字制御の再現性は文脈依存でばらつく場合がある。複雑な漢字の読みは同規模の他 TTS と比べ弱めになりうるため、かなへの置き換えが必要になる場面がある。