Gemini 3.5 FlashのComputer Use

Googleは、Gemini 3.5 FlashにComputer Useをビルトインツールとして統合した。従来は独立モデル gemini-2.5-computer-use-preview-10-2025 として提供されていた画面操作能力が、メインのFlashモデル gemini-3.5-flash に組み込まれた。SearchやMapsのグラウンディングと同様に、関数呼び出しと並ぶ組み込みツールとして扱える。

スクリーンショットで画面を認識し、クリックやキー入力などのUI操作を生成する。ブラウザ、モバイル、デスクトップの各環境向けにエージェントを構築でき、長時間のソフトウェアテストや業務アプリ横断のナレッジワークなど、エンタープライズ向けの自動化を想定している。Gemini APIとGemini Enterprise Agent Platformから利用できる。

3.5 Flash向けの主な拡張は次のとおりである。

各操作に理由を示す intent フィールド付きのストリームライン化されたアクション
ビルトインの安全ポリシーカテゴリと上書き設定
スクリーンショットを走査して間接的プロンプトインジェクションを検出するオプトイン機能

#安全性

ライブ環境で動くエージェントのプロンプトインジェクションリスクに対し、Computer Use向けの敵対的学習を実施している。エンタープライズ向けには、任意で次の二つの保護機能を有効化できる。

機密性の高い操作や取り消し不能な操作に、明示的なユーザー確認を要求する
間接的プロンプトインジェクションを検出した場合、タスクを自動停止する

サンドボックス化、human-in-the-loop検証、厳格なアクセス制御と組み合わせる多層防御を推奨している。

#利用開始

Browserbaseがホストするデモ環境で動作を試せる
参照実装とGemini APIのComputer Useドキュメントから組み込みを開始できる
Gemini Enterprise Agent Platformでも同ツールを有効化できる

#安全性

#利用開始

#参考文献