Irodori-TTS 500M v2とVoiceDesign公開、絵文字制御とキャプション条件付き日本語TTS

Echo-TTS の設計を大筋で踏襲しつつ、日本語向けに Rectified Flow Diffusion Transformer（RF-DiT）と DACVAE の連続潜在上でフロー補間する TTS として Aratako による Irodori-TTS が公開されている。リポジトリは 2026-02-25 の Initial commit で始まり、2026-03-18 に v1 用コードを指す v1 タグが付与された。続く main では 2026-03-22 前後から v2 向け変更が進み、Hugging Face 上ではベース重み Aratako/Irodori-TTS-500M-v2 が 2026-03-23 に作成された。さらにキャプションで話し方を指定する VoiceDesign 系は、同 2026-03-30 に Aratako/Irodori-TTS-500M-v2-VoiceDesign が作成され、GitHub 側でも 2026-03-31 に該当機能追加コミットが積まれている。

#主な機能・特徴

約 5 億パラメータ規模。v2 は 32 次元の Semantic-DACVAE-Japanese-32dim コーデックで 48 kHz 波形を再構成し、学習ステップを従来比おおよそ 2.5 倍に延ばしたほか、テキスト前処理とデータフィルタを厳格化。
訓練テキストに絵文字注釈を付与したデータで学習しており、入力に特定の絵文字を埋め込むことで話し方・感情・効果音寄りの制御が可能。対応一覧はリポジトリおよびモデルカードから辿れる EMOJI_ANNOTATIONS.md。
ベースモデルは参照音声の DACVAE 潜在をパッチ化して条件化し、短いクリップからゼロショットで声質を近づける Voice Cloning に対応。
VoiceDesign チェックポイントは参照音声系のエンコーダの代わりにキャプションエンコーダを用い、スタイル記述テキストで条件付けする経路が用意されている（ベース v2 とは別重み）。
推論は CLI、gradio_app.py / gradio_app_voicedesign.py、Hugging Face Hub のチェックポイント読み込みに対応。ホスト済みデモ用 Space へのリンクもモデルカードに記載。
コードは MIT。公開重みもモデルカード上 MIT とされ、なりすましや誤情報用途を禁じる倫理上の注意が併記されている。

入力は日本語に限られ、絵文字制御の再現性は文脈依存でばらつく場合がある。複雑な漢字の読みは同規模の他 TTS と比べ弱めになりうるため、かなへの置き換えが必要になる場面がある。

#主な機能・特徴

#参考文献