Anima Base v1.0

803文字
4分
編集

CircleStone LabsとComfy Orgは、共同開発するtext-to-imageモデルAnimaの最終版としてAnima-Base v1.0(anima-base-v1.0.safetensors、約4.18GB)をHugging Faceで公開した。プレビュー系列(preview、preview2、preview3-base)に続く製品版で、美学データセットでの後処理を施していないプリトレイン済みベースモデルである。後続のAnima-Turboは未公開のまま「Coming soon」とされている。

Animaは20億パラメータのtext-to-imageモデルで、アニメの概念・キャラクター・画風を主眼に置きつつ、非写真系のイラスト全般にも対応する。学習データは数百万枚のアニメ画像と約80万枚の非アニメ芸術画像で、合成データは使っていない。アニメ側の知識カットオフは2025年9月である。写実性は意図的に弱く、イラスト用途向けの設計である。基盤はNVIDIA Cosmos-Predict2-2B-Text2Imageの派生モデルで、CircleStone Labs Non-Commercial Licenseに加え、派生モデルとしてNVIDIA Open Model License Agreementの条件も適用される。商用利用はメールでの別途ライセンスが必要である。

従量課金のAPI提供や、Artificial Analysis等の第三者横断ベンチマーク掲載は確認できなかった。

#配布物とComfyUI

ComfyUIでネイティブに動作し、モデルカード内のワークフロー画像をドラッグ&ドロップすれば設定を読み込める。配置先は次のとおりである。

  • anima-base-v1.0.safetensorsComfyUI/models/diffusion_models
  • qwen_3_06b_base.safetensorsComfyUI/models/text_encoders
  • qwen_image_vae.safetensorsComfyUI/models/vae(Qwen-Image VAE。既存環境では所持済みの場合あり)

解像度は512²〜1536²ピクセル。ステップ数30〜50、CFG 4〜5が推奨値である。推奨サンプラーにはer_sde(平坦な色・シャープな線のデフォルト)、euler_a(細い線・2.5D寄りになりうる)、dpmpp_2m_sde_gpu(多様性が増すが暴れやすい)がある。より写実的・絵画的な質感には、ComfyUI RES4LYFのbeta57スケジューラが低ノイズ側を強調する。

安定性と高速化向けに、モデルカードからAnima Turbo LoRAも案内されている。

#プロンプトとベースモデルの性質

Danbooru形式タグ、自然言語キャプション、およびその混合で学習している。タグは小文字・スペース区切り(scoreタグのみアンダースコア)。推奨ポジティブ接頭辞は masterpiece, best quality, score_7, safe, 、ネガティブは worst quality, low quality, score_1, score_2, score_3, artist name である。タグ順序の目安は [品質/メタ/年/安全] [1girl等] [キャラ] [作品] [作者] [一般タグ] で、各ブロック内の順序は任意である。作者タグは @ 接頭辞が必須である。

非アニメ多様化のため、LAION-POP(ye-pop版)とDeviantArt(写真除外)も学習に含まれ、プロンプト先頭に ye-pop または deviantart のデータセットタグを付ける形式がある。

ベース版は美学チューニングやRLHFを経ていないため、品質・作者タグなしでは無地で中立的な出力になりやすい。長文のテキスト描画は不得意で、単語〜短い句程度が現実的な範囲である。他モデルとの比較用に anima_comparison.json ワークフローも同梱され、Anima・SDXL・Lumina・Chroma・Newbie-Image等のアーキテクチャをグリッド比較できる。

#ファインチューニング

LLMアダプタ(テキスト埋め込み前処理)は学習しない設定が推奨される(diffusion-pipeでは llm_adapter_lr=0、sd-scriptsにも同等オプションあり)。rank 32 LoRAでは学習率2e-5前後から調整する想定で、美学チューニングを上書きする必要がない分、軽い学習で足りると説明されている。

#参考文献