All Posts
News bits
Gemini API に大幅な機能拡張が追加
Gemini API に大幅な機能拡張が追加
Google I/O 2025 で Gemini API に多数の新機能と改良が発表された。新モデルの追加、思考プロセスの可視化、ツール連携強化、動画理解向上など、開発者向けの大幅な機能拡張が実施。特にエージェント開発やマルチモーダル対応、リアルタイム生成機能が大幅に強化された。
API で利用できる新しいモデル:
- Gemini 2.5 Flash Preview (05-20 版):推論・コード・長文対応が向上、LMarena で#2 位を獲得
- Gemini 2.5 Pro/Flash TTS:24 言語対応、複数話者での音声生成が可能
- Gemini 2.5 Flash native audio dialog:Live API 経由で 30 以上の音声、24 言語での対話が可能
- Lyria RealTime:WebSockets でリアルタイム音楽生成、PromptDJ-MIDI アプリで体験可能
- Gemini 2.5 Pro Deep Think:複雑な数学・コーディング問題向けの実験的推論モード
API の新機能:
- Thought summaries:モデルの思考プロセスを要約して可視化
- Thinking budgets:思考量を制御して性能・レイテンシ・コストをバランス調整
- URL Context tool:リンクから追加コンテキストを取得、Google 検索との併用可能
- Computer use tool:Project Mariner のブラウザ制御機能を API 経由で提供
- Structured outputs 強化:JSON Schema の$ref や tuple 構造定義をサポート
- Video understanding 改良:YouTube URL 対応、動画クリッピング、可変 FPS(0.1-60fps)、3 段階解像度選択
- Async function calling:Live API でバックグラウンド関数実行中も会話継続可能
- Batch API:最大 24 時間処理、通常 API の半額、高いレート制限
Veo 3、Imagen 4、Flow など最新メディア生成モデルが発表
Veo 3、Imagen 4、Flow など最新メディア生成モデルが発表
Google が I/O 2025 で最新のメディア生成モデルが発表。Veo 3 は初の音声付き動画生成を実現し、Imagen 4 は 2K 解像度での高品質画像生成が可能。新しい AI 映像制作ツール Flow や音楽生成の Lyria 2 も発表され、クリエイティブ業界向けの包括的なソリューションを提供。全てのコンテンツに SynthID による電子透かしを付与し、AI 生成コンテンツの識別を支援する SynthID Detector も公開。
Veo 3:音声付き動画生成を初実現。街中の交通音、鳥のさえずり、キャラクター対話なども生成可能。リップシンクや物理法則を正確に反映し、米国の Ultra ユーザー、Gemini アプリ、Flow、Vertex AI で利用開始。
Veo 2 新機能:参照画像による動画生成、カメラコントロール(回転・ズーム設定)、アウトペインティング(フレーム拡張)、オブジェクトの追加・削除機能を追加。
Flow:Veo 向け AI 映像制作ツール。キャラクター、シーン、スタイルの細かい制御で映画のような作品を制作可能。
Imagen 4:最大 2K 解像度での高品質画像生成、文字表現・タイポグラフィ機能が大幅向上。Gemini アプリ、Whisk、Vertex AI、Google Workspace で利用可能。近日中に Imagen 3 比で最大 10 倍高速な版をリリース予定。
Lyria 2:Music AI Sandbox での高度な楽曲制作ツール。Lyria RealTime によるリアルタイム音楽生成も API 経由と AI Studio で提供。
SynthID Detector:AI 生成コンテンツ識別を支援する検証ポータルサイトを公開。SynthID による電子透かしの有無を確認可能。
著者について
Hi there. I'm hrdtbs, a frontend expert and technical consultant. I started my career in the creative industry over 13 years ago, learning on the job as a 3DCG modeler and game engineer in the indie scene.
In 2015 I began working as a freelance web designer and engineer. I handled everything from design and development to operation and advertising, delivering comprehensive solutions for various clients.
In 2016 I joined Wemotion as CTO, where I built the engineering team from the ground up and led the development of core web and mobile applications for three years.
In 2019 I joined matsuri technologies as a Frontend Expert, and in 2020 I also began serving as a technical manager supporting streamers and content creators.
I'm so grateful to be working in this field, doing something that brings me so much joy. Thanks for stopping by.