Gemini Omni Flash - ohiruneuni/blog

Google DeepMind は、画像・音声・動画・テキストを任意に組み合わせて出力を生成するモデルファミリー「Gemini Omni」を発表した。Gemini の推論と創造性を統合し、まずは動画の生成と編集を中心に、ファミリー第一弾の Gemini Omni Flash を Gemini アプリ、Google Flow、YouTube Shorts へ順次提供する。画像や音声など他の出力形式への対応は今後予定である。

発表資料には従量制 API の単価は含まれておらず、デベロッパー向け API 提供は数週間以内とされる。第三者が同一手順で維持する横断性能指数への掲載も、現時点の公開情報にはない。

#動画編集と生成

自然言語だけで動画を段階的に編集でき、各プロンプトは前の文脈を引き継ぐ。登場人物の見た目、物理法則、シーン全体の流れを一貫して保つ。
ゼロからの生成、既存映像の部分変更、撮影素材の全面作り替えに対応する。撮影済み動画をベースに動き・キャラクター・オブジェクトの追加や一瞬の展開変更が可能である。
背景、カメラアングル、スタイル、細部を、元シーンの文脈を失わずに積み重ねて調整できる。

#世界知識とマルチモーダル参照

重力、運動エネルギー、流体力学など物理の理解を強化し、水や物体の動きをより自然に描く。
歴史・科学・文化の背景知識と組み合わせ、「次に何が起こるか」を論理的に推論した物語性のある映像を目指す。
画像、テキスト、動画、音声を参照として組み合わせ、1 本の動画に統合する。音声参照にはまず音声から対応し、他入力への拡張は今後予定である。
参照画像によるキャラクター差し替え、スケッチを動きのガイドとしてリアル映像へ変換する、別素材からのモーション・スタイル転写に対応する。

#デジタルアバターと安全性

まずは利用者自身の声でデジタルアバター動画を作成できる。動画内の音声や会話の編集・変更は、責任ある提供に向けて慎重に評価中とされる。
Gemini Omni で生成・編集した動画には SynthID の電子透かしが埋め込まれる。Gemini アプリ、Gemini in Chrome、Google 検索から生成物かどうかを確認できる。Google Flow や YouTube での出力には C2PA Content Credentials も付与される。

#提供チャネル

Gemini アプリと Google Flow では、Google AI Plus・Pro・Ultra の利用者を対象に、2026 年 5 月 20 日から世界中で順次提供を開始する。Google AI のサブスクリプションが必要で、プランと地域により機能は異なる。
YouTube Shorts のリミックスと YouTube Create アプリでは、2026 年 5 月 19 日から無料で順次提供される。リミックス動画はデジタル透かしと識別メタデータを持ち、元動画へリンクする。クリエイターは Shorts のビジュアルリミックスをオプトアウトできる。

#動画編集と生成

#世界知識とマルチモーダル参照

#デジタルアバターと安全性

#提供チャネル

#参考文献