Gemini 3.5 FlashのComputer Use

439文字
2分
編集

Googleは、Gemini 3.5 FlashにComputer Useをビルトインツールとして統合した。従来は独立モデル gemini-2.5-computer-use-preview-10-2025 として提供されていた画面操作能力が、メインのFlashモデル gemini-3.5-flash に組み込まれた。SearchやMapsのグラウンディングと同様に、関数呼び出しと並ぶ組み込みツールとして扱える。

スクリーンショットで画面を認識し、クリックやキー入力などのUI操作を生成する。ブラウザ、モバイル、デスクトップの各環境向けにエージェントを構築でき、長時間のソフトウェアテストや業務アプリ横断のナレッジワークなど、エンタープライズ向けの自動化を想定している。Gemini APIとGemini Enterprise Agent Platformから利用できる。

3.5 Flash向けの主な拡張は次のとおりである。

  • 各操作に理由を示す intent フィールド付きのストリームライン化されたアクション
  • ビルトインの安全ポリシーカテゴリと上書き設定
  • スクリーンショットを走査して間接的プロンプトインジェクションを検出するオプトイン機能

#安全性

ライブ環境で動くエージェントのプロンプトインジェクションリスクに対し、Computer Use向けの敵対的学習を実施している。エンタープライズ向けには、任意で次の二つの保護機能を有効化できる。

  • 機密性の高い操作や取り消し不能な操作に、明示的なユーザー確認を要求する
  • 間接的プロンプトインジェクションを検出した場合、タスクを自動停止する

サンドボックス化、human-in-the-loop検証、厳格なアクセス制御と組み合わせる多層防御を推奨している。

#利用開始

#参考文献