AI Weekly 2025-05-22 - hrdtbs' blog

Devin 2.1 リリース、Confidence Scores と強化された codebase intelligence#

日付：2025 年 5 月 15 日

Devin 2.1 がリリースされ、AI コーディングエージェントの過信問題を解決する Confidence Scores（🟢 🟡 🔴）機能を追加。セッション開始時、プラン作成後、コードに関する質問回答時に信頼度を表示し、🟢 でない場合はユーザー承認を待ってから実行する。DeepWiki の codebase 理解機能が直接統合され、セッション中いつでも質問可能に。Linear と Jira との統合も強化され、複数 issue の信頼度を一括取得できる。

Confidence Scores でタスク完了可能性を表示
🟡 や 🔴 の場合はユーザー承認を待機、🟢 は自動進行
DeepWiki が Devin に直接統合、codebase intelligence を強化
!askコマンドで codebase scan を手動トリガー可能
Linear と Jira 統合で multiple issues の信頼度を一括評価
データで Confidence Scores と Success の高い相関性を確認

出展：Devin Release Notes

DeepWiki MCP Server リリース#

日付：2025 年 5 月 22 日

Devin が DeepWiki MCP Server をリリース。Model Context Protocol（MCP）標準を使用して AI アプリケーションに DeepWiki のリポジトリドキュメントと検索機能への programmatic access を提供。3 万以上のオープンソースリポジトリに対応し、無料かつ認証不要で AI エージェントとの連携が可能。

MCP 標準で AI アプリケーションとの統合が可能
リポジトリドキュメントと検索機能に programmatic access
3 万以上のオープンソースリポジトリに対応
無料提供、認証不要
AI エージェントの外部連携を標準化

次の URL からアクセス可能。

SSE（Server-Sent Events）：https://mcp.deepwiki.com/sse
Streamable HTTP：https://mcp.deepwiki.com/mcp

次のツールを利用できる。

read_wiki_structure：GitHub リポジトリのドキュメントトピックリストを取得
read_wiki_contents：GitHub リポジトリのドキュメントを表示
ask_question：GitHub リポジトリについて AI 回答を取得

出展：

GitHub Copilot での Issue 作成機能が Public Preview で利用可能に#

日付：2025 年 5 月 19 日

GitHub が Copilot を使用した Issue 作成機能をパブリックプレビューで提供開始。自然言語での記述やスクリーンショットから詳細なバグレポートを自動生成し、手動での繰り返し作業を大幅に削減。複数の Issue を一度に作成でき、リポジトリの標準に適したテンプレートの提案も行う。新しい GitHub Copilot coding agent への割り当ても可能。

自然言語での記述から Issue form を自動生成
スクリーンショットから詳細なバグレポートを作成
リポジトリ標準に適したテンプレートを提案
複数の Issue を一度に作成可能
GitHub Copilot coding agent への直接割り当て
作成前のチャットによる内容調整が可能

利用方法：

Copilot Chat の immersive modeに移動
“Create me an issue for…”で開始して Issue を記述
内容を確認・調整して「Create」をクリック

出展：Creating issues with Copilot on github.com is in public preview

GitHub Copilot Coding Agent がパブリックプレビューで利用可能に#

日付：2025 年 5 月 19 日

GitHub が Microsoft Build 2025 で GitHub Copilot Coding agent を発表。VS Code から直接アクセス可能で、GitHub Actions を活用した安全でカスタマイズ可能な開発環境を提供。GitHub Issue を Copilot に割り当てるとエージェントが作業を開始し、Draft pull request に変更を push、開発者は進捗を追跡しフィードバックを提供可能。

GitHub Actions によるセキュアでカスタマイズ可能な開発環境
Model Context Protocol（MCP）で外部データとの連携が可能
Branch protections と Controlled internet access でセキュリティ確保
Pull requests には人間の承認が必要で CI/CD 保護を強化
低〜中程度の複雑さタスクに優れた性能を発揮
Copilot Enterprise and Copilot Pro+ユーザー向けにプレビュー提供

利用方法：

公式ドキュメントに従い Coding Agent に Repository へのアクセスを許可
Issue で Copilot をアサイン

出展：GitHub Introduces Coding Agent For GitHub Copilot

Claude 4（Opus 4 / Sonnet 4）リリース#

日付：2025 年 5 月 22 日

Anthropic が Claude 4 ファミリー（Opus 4、Sonnet 4）を発表。Opus 4 は世界最高水準のコーディング性能と長時間タスク持続力を持ち、SWE-bench や Terminal-bench でトップスコアを記録。Sonnet 4 も従来比で大幅に性能向上。両モデルともツール利用やメモリ機能が強化され、複雑なエージェントタスクや長期的な文脈保持が可能。

Opus 4 は複雑なコーディングや長時間のエージェントタスクで従来モデルを大幅に上回る
Sonnet 4 は即時応答と高精度な指示追従を両立
Claude Code が一般提供、VS Code や JetBrains と連携しペアプロ開発を支援
新 API でコード実行、MCP 連携、ファイル API、プロンプトキャッシュなどを提供
Sonnet 4 の価格は従来モデルと同等、Opus 4 は Sonnet 4 の約 5 倍

既にGitHub CopilotやCursorでの利用が可能。

出展：Introducing Claude 4

Claude 4 プロンプトエンジニアリングベストプラクティス#

日付：2025 年 5 月 22 日

Claude 4（Opus 4 / Sonnet 4）向けのプロンプトエンジニアリング手法が公式ドキュメントで公開。明確かつ具体的な指示、文脈や動機の明示、例示の活用が推奨されている。出力フォーマット制御や思考プロセスの誘導、ツールの並列実行促進、エージェントコーディング時の一時ファイル管理、フロントエンド生成時の明示的な要望追加など、Claude 4 の特性を活かすための具体的なテクニックがまとめられている。

明確で具体的な指示が高品質な出力につながる
文脈や目的を説明すると精度が向上
例や詳細を明示し、望ましい挙動を促す
出力フォーマットの制御には「～するな」ではなく「〜せよ」形式、XML タグ指定が有効
複数ツールの並列実行は明示的に促すと成功率が向上
一時ファイルの自動削除指示でエージェントの後片付けも可能
フロントエンド生成時は「全力で」「詳細に」などの修飾語が有効

出展：Claude 4 prompt engineering best practices

Claude Code GitHub Actions 公開#

日付：2025 年 5 月 22 日

Claude Code が GitHub Actions に対応し、AI による自動 PR 作成・コード実装・バグ修正・レビューが可能に。@claudeを issue や PR コメントで呼び出すだけで、コード生成や修正、プロジェクト標準に沿った実装を自動化できる。CLAUDE.md によるプロジェクト固有ルールの反映や、API キー・許可コマンドのセキュアな管理、コスト最適化のための細かな設定も可能。AWS Bedrock や Google Vertex AI との連携にも対応。

@claudeコメントで PR 作成・バグ修正・実装支援などを自動化
CLAUDE.md でコーディング規約やレビュー基準を指定可能
API キーや許可コマンドは GitHub Secrets で安全に管理
コスト最適化やセキュリティ強化のための詳細設定に対応
AWS Bedrock や Google Vertex AI 経由の利用もサポート

リポジトリ：anthropics/claude-code-action

出展：GitHub Actions - Authropic

OpenAI Responses API、MCP 連携やツール呼び出しなど新機能#

日付：2025 年 5 月 22 日

OpenAI が Responses API の新機能を発表。MCP（Model Context Protocol）連携やツール呼び出し、プロンプトキャッシュ、ストリーミング対応など、エージェント用途や大規模アプリケーション向けの拡張が中心。API 経由での外部ツール連携や、長時間・大規模な対話セッションの効率化が可能になった。

MCP 連携で外部ツールやサーバーとの柔軟な連携が可能
プロンプトキャッシュで同一内容のリクエストを効率化
ストリーミング対応で応答速度が向上
エージェント用途や大規模アプリ向けの拡張が中心

出展：New tools and features in the Responses API

OpenAI Codex リリース、クラウドベースの AI コーディングエージェント#

日付：2025 年 5 月 16 日

OpenAI がソフトウェア開発用 AI エージェント「Codex」のリサーチプレビュー版をリリース。o3 推論モデルを最適化した codex-1 を搭載し、クラウド上の隔離された仮想コンピューター環境で動作。複数のタスクを並行処理でき、1〜30 分で機能開発やバグ修正、テスト実行を完了する。ChatGPT Pro、Enterprise、Team ユーザー向けに提供開始、Plus と Edu ユーザーへの提供も近日予定。

クラウドベースの仮想コンピューター環境で隔離実行
GitHub リポジトリと連携、コードベースを事前ロード
AGENTS.md ファイルによるプロジェクト固有設定が可能
SWE-Bench Verified で約 80%の精度を達成
複数タスクの並行処理と進捗のリアルタイム確認
セキュリティを重視、インターネットアクセスは無効化

出展：Introducing Codex

NotebookLM モバイルアプリが iOS・Android 向けにリリース#

日付：2025 年 5 月 19 日

Google が NotebookLM のモバイルアプリを iOS と Android 向けにリリース。外出先での Audio Overviews 視聴、リアルタイムでの質問、ブラウジング中の直接共有が可能に。オフライン再生やバックグラウンド再生に対応し、地下鉄やデータ通信制限時でも利用できる。任意のアプリから Web サイト、PDF、YouTube 動画を NotebookLM に直接共有可能。

出展：Understand anything, anywhere with the new NotebookLM app

Gemma 3n preview 発表、モバイルファーストのオープンソース AI モデル#

日付：2025 年 5 月 20 日

Google が Gemma 3n preview を発表。モバイルデバイス向けに最適化されたオープンソース AI モデルで、Per-Layer Embeddings（PLE）により RAM 使用量を大幅削減。5B と 8B パラメータながら 2B と 4B 相当のメモリフットプリント（2GB・3GB）を実現。音声、テキスト、画像のマルチモーダル対応でオフライン動作が可能。Qualcomm、MediaTek、Samsung System LSI と連携して開発され、次世代 Gemini Nano の基盤技術となる。

出展：Announcing Gemma 3n preview: powerful, efficient, mobile-first AI

Gemini Diffusion、拡散型言語モデルが発表#

日付：2025 年 5 月 22 日

Google が新しい実験的研究モデル「Gemini Diffusion」を発表。ランダムノイズからコヒーレントなテキストやコードを生成する SOTA（State-of-the-Art）の Text diffusion model で、画像・動画生成モデルと同様の仕組みを採用。従来の最速モデルよりも大幅に高速化を実現しながら、コーディング性能は同等レベルを維持。実験デモが公開され、ウェイトリストに登録可能。

出展：Gemini Diffusion

Gemini API に大幅な機能拡張が追加#

日付：2025 年 5 月 23 日

Google I/O 2025 で Gemini API に多数の新機能と改良が発表された。新モデルの追加、思考プロセスの可視化、ツール連携強化、動画理解向上など、開発者向けの大幅な機能拡張が実施。特にエージェント開発やマルチモーダル対応、リアルタイム生成機能が大幅に強化された。

API で利用できる新しいモデル：

Gemini 2.5 Flash Preview (05-20 版)：推論・コード・長文対応が向上、LMarena で#2 位を獲得
Gemini 2.5 Pro/Flash TTS：24 言語対応、複数話者での音声生成が可能
Gemini 2.5 Flash native audio dialog：Live API 経由で 30 以上の音声、24 言語での対話が可能
Lyria RealTime：WebSockets でリアルタイム音楽生成、PromptDJ-MIDI アプリで体験可能
Gemini 2.5 Pro Deep Think：複雑な数学・コーディング問題向けの実験的推論モード

API の新機能：

Thought summaries：モデルの思考プロセスを要約して可視化
Thinking budgets：思考量を制御して性能・レイテンシ・コストをバランス調整
URL Context tool：リンクから追加コンテキストを取得、Google 検索との併用可能
Computer use tool：Project Mariner のブラウザ制御機能を API 経由で提供
Structured outputs 強化：JSON Schema の$ref や tuple 構造定義をサポート
Video understanding 改良：YouTube URL 対応、動画クリッピング、可変 FPS（0.1-60fps）、3 段階解像度選択
Async function calling：Live API でバックグラウンド関数実行中も会話継続可能
Batch API：最大 24 時間処理、通常 API の半額、高いレート制限

出展：Gemini API I/O updates

Google Jules、自律型コーディングエージェントがパブリックベータで提供開始#

日付：2025 年 5 月 20 日

Google が Google Labs で開発していた自律型コーディングエージェント「Jules」をパブリックベータで提供開始。ウェイトリスト不要で世界中で利用可能（Gemini モデル利用可能地域）。既存リポジトリと直接統合し、セキュアな Google Cloud VM 上にリポジトリをクローンして非同期でタスクを実行。プライベートコードでの学習は行われず、データは実行環境内で隔離。モデルは Gemini 2.5 Pro が利用される。

出展：Build with Jules, your asynchronous coding agent

Google Stitch、プロンプトと画像から UI 設計とフロントエンドコードを生成#

日付：2025 年 5 月 20 日

Google が Google Labs の実験的プロジェクトとして「Stitch」を発表。Gemini 2.5 Pro のマルチモーダル機能を活用し、自然言語プロンプトや画像入力から複雑な UI 設計とフロントエンドコードを数分で生成。ホワイトボードスケッチ、スクリーンショット、ワイヤーフレームから対応するデジタル UI を作成でき、複数バリエーションでの高速イテレーションも可能。生成されたデザインは Figma に直接貼り付けてコラボレーションでき、クリーンで機能的な HTML/CSS/JavaScript コードも自動出力。stitch.withgoogle.comでアクセス可能。

出展：From idea to app: Introducing Stitch, a new way to design UIs

Veo 3、Imagen 4、Flow など最新メディア生成モデルが発表#

日付：2025 年 5 月 21 日

Google が I/O 2025 で最新のメディア生成モデルが発表。Veo 3 は初の音声付き動画生成を実現し、Imagen 4 は 2K 解像度での高品質画像生成が可能。新しい AI 映像制作ツール Flow や音楽生成の Lyria 2 も発表され、クリエイティブ業界向けの包括的なソリューションを提供。全てのコンテンツに SynthID による電子透かしを付与し、AI 生成コンテンツの識別を支援する SynthID Detector も公開。

Veo 3：音声付き動画生成を初実現。街中の交通音、鳥のさえずり、キャラクター対話なども生成可能。リップシンクや物理法則を正確に反映し、米国の Ultra ユーザー、Gemini アプリ、Flow、Vertex AI で利用開始。

Veo 2 新機能：参照画像による動画生成、カメラコントロール（回転・ズーム設定）、アウトペインティング（フレーム拡張）、オブジェクトの追加・削除機能を追加。

Flow：Veo 向け AI 映像制作ツール。キャラクター、シーン、スタイルの細かい制御で映画のような作品を制作可能。

Imagen 4：最大 2K 解像度での高品質画像生成、文字表現・タイポグラフィ機能が大幅向上。Gemini アプリ、Whisk、Vertex AI、Google Workspace で利用可能。近日中に Imagen 3 比で最大 10 倍高速な版をリリース予定。

Lyria 2：Music AI Sandbox での高度な楽曲制作ツール。Lyria RealTime によるリアルタイム音楽生成も API 経由と AI Studio で提供。

SynthID Detector：AI 生成コンテンツ識別を支援する検証ポータルサイトを公開。SynthID による電子透かしの有無を確認可能。

出展：想像力を広げる最新のメディア生成モデルとツール

Google AI Ultra、最高レベルの AI 機能を統合したサブスクリプションプラン発表#

日付：2025 年 5 月 20 日

Google が Google AI Ultra を発表。映画製作者、開発者、クリエイティブプロフェッショナル向けの最高レベル AI サブスクリプションプラン。月額$249.99（米国、初回 3 か月は 50%オフ）で、最高の使用制限と最先端モデルへのアクセスを提供。Gemini、Flow、Whisk、NotebookLM、Project Mariner、YouTube Premium、30TB ストレージを統合し、従来の Google AI Premium（現 Google AI Pro）を大幅に上回る包括的な AI サービスパッケージを実現。

Gemini：最高使用制限、Deep Research、Veo 2/3 動画生成、Deep Think 早期アクセス
Flow：AI 映像制作ツール、1080p 動画生成、高度カメラコントロール、Veo 3 早期アクセス
Whisk：Whisk Animate で画像を 8 秒動画に変換（Veo 2 使用）
NotebookLM：最高使用制限と強化モデル機能
Chrome 内 Gemini：ブラウザ内直接アクセス（早期アクセス）
Project Mariner：10 タスク同時管理可能なエージェント研究プロトタイプ
YouTube Premium：広告なし視聴・オフライン再生
ストレージ：30TB（Google Photos、Drive、Gmail 対応）

既存の AI Premium プランは Google AI Pro に改名され、Flow と Chrome 内 Gemini アクセスが追加。

出展：Introducing Google AI Ultra: The best of Google AI in one subscription

Devin 2.1 リリース、Confidence Scores と強化された codebase intelligence#

DeepWiki MCP Server リリース#

GitHub Copilot での Issue 作成機能が Public Preview で利用可能に#

GitHub Copilot Coding Agent がパブリックプレビューで利用可能に#

Claude 4（Opus 4 / Sonnet 4）リリース#

Claude 4 プロンプトエンジニアリング ベストプラクティス#

Claude Code GitHub Actions 公開#

OpenAI Responses API、MCP 連携やツール呼び出しなど新機能#

OpenAI Codex リリース、クラウドベースの AI コーディングエージェント#

NotebookLM モバイルアプリが iOS・Android 向けにリリース#

Gemma 3n preview 発表、モバイルファーストのオープンソース AI モデル#

Gemini Diffusion、拡散型言語モデルが発表#

Gemini API に大幅な機能拡張が追加#

Google Jules、自律型コーディングエージェントがパブリックベータで提供開始#

Google Stitch、プロンプトと画像から UI 設計とフロントエンドコードを生成#

Veo 3、Imagen 4、Flow など最新メディア生成モデルが発表#

Google AI Ultra、最高レベルの AI 機能を統合したサブスクリプションプラン発表#

Claude 4 プロンプトエンジニアリングベストプラクティス#