Fairseqを利用したRVCアプリのGradio v5アップグレードに伴う依存関係エラーとその対策
Hugging Face Spacedでホスティングしているfairseqを利用したアプリをGradio v5へ更新する際に発生した依存関係エラーと対応メモ。
入力して検索を開始
2 posts
Hugging Face Spacedでホスティングしているfairseqを利用したアプリをGradio v5へ更新する際に発生した依存関係エラーと対応メモ。
Hugging Face固有の内容はほぼない。Windows環境からSSH接続しようとするとError connecting to agentと言われた。その対応をまとめる。
オープンウェイト向けに、有害プロンプトを送らず中間層の活性パターンから安全訓練の残存を測る CLI とライブラリがソースで公開され、続いて PyPI にも載った。Apache 2.0。
DeepSeek が V4 系 MoE 言語モデル(Flash と Pro)のプレビューを公開し、百万トークン窓と API・オープンウェイト配布をそろえた。ハイブリッド注意とポストトレーニング手順を主な技術軸として説明している。
Hugging Face が理論物理の研究問題を解くための自律エージェント枠組み physics-intern を公開した。CritPt ベンチマークで、複数モデルのスコアをベースラインから引き上げたとしている。
Rectified Flow Diffusion Transformer と DACVAE 連続潜在による日本語 TTS。入力テキストへの絵文字でスタイル・感情・効果音を誘導、短い参照音声からのゼロショット Voice Cloning。v2 は Semantic-DACVAE-Japanese-32dim・学習ステップ約 2.5 倍・前処理とデータフィルタの改善。VoiceDesign はスタイル用キャプション条件付きの別チェックポイント。CLI・Gradio・Hugging Face Hub 推論、コードと公開重みは MIT。日本語入力のみ、漢字読みは同規模他 TTS 比で弱めになる場合あり。
Storage Bucket・モデル・データセットをローカル fs としてマウント。Bucket は読み書き、モデル・データセットは読み取り専用。エージェント向けストレージとしての位置づけ。
Alibaba CloudのQwen3-TTSファミリーがオープンソース化。音声クローン、音声デザインなどを提供し、10言語に対応。
Hugging Faceが、コマンドラインインターフェース(CLI)ツールを刷新し、huggingface-cliからhfへと名称を短縮。開発者の利便性向上を目的としたアップデート。