Hermes Agentを導入する
Windowsへの導入からDiscord連携、自動起動、スキルの蒸留
入力して検索を開始
10 posts
Windowsへの導入からDiscord連携、自動起動、スキルの蒸留
あえて公式スキルを使わずに人力でCodexカスタムペットを作成する方法を紹介します。
Agent SkillsのSkill Creatorを利用した作成、add-skillを利用したインストール、Skillのチーム内共有のすすめ
ComfyUIでQwen-Image-Editを試した結果をまとめる。 ComfyUIが提供するテンプレートが良く出来ており、Lightingもすぐに導入できるようになっている。オブジェクトの追加・削除・変更などは安定して出来たが、スタイルの変更やテキストの編集には一部難があるように感じた。
まだOrganization全体でGitHub Copilot Reviewの言語設定を切り替えることは出来ませんが、リポジトリ毎であれば.github/copilot-instructions.mdで応答する言語を指示できます。
Hugging Face Spacedでホスティングしているfairseqを利用したアプリをGradio v5へ更新する際に発生した依存関係エラーと対応メモ。
MCPの仕様、SDKやサーバーの例、MCPのサポート状況、セキュリティ上の懸念、代替の可能性について。
知人のために2025年版 ComfyUIのセットアップを紹介する内容です。細かいところは直接説明するので省いています。
現在はプレビューなため、Agent ModeはVSCode Insidersでのみ利用可能。合わせてCopilot Editsが一般公開、またVisionもプレビューでの利用が可能になった。
Hugging Face固有の内容はほぼない。Windows環境からSSH接続しようとするとError connecting to agentと言われた。その対応をまとめる。
MDNはMCP経由で検索・ドキュメント・ブラウザ互換性データにアクセスできるリモートサーバーを公開した。VS CodeやCursorなどMCP対応クライアントからHTTPで接続できる実験的サービスである。
米政府が国家安全保障当局に基づく輸出管理指示を出し、外国人による Fable 5 と Mythos 5 へのアクセス停止を命じた。Anthropic は法令遵守のため全世界の全顧客向けに両モデルを無効化した。
Codex のレート制限リセットを貯めて好きなタイミングで使える機能を順次展開する。Go・Plus・Pro・Business には開始時に無料リセットを1回付与し、Plus と Pro は紹介招待で追加の貯蔵リセットを得られる。
Stack Overflow が、コーディングエージェント向けに検証ループと合意形成を組み込んだ知識交換プラットフォームをベータとして公開した。Questions/TIL/Blueprint の3種を機械可読な形で扱う。
Anthropic が Mythos クラスの Claude Fable 5 を一般公開し、サイバーガードを外した Claude Mythos 5 を Project Glasswing 向けに投入した。API 単価は入力百万トークンあたり 10 ドル・出力 50 ドルだが、公開から数日後に米政府の輸出管理指示で両モデルへのアクセスが全世界で停止された。
AnthropicはClaude Managed Agentsに、cronで自律実行するスケジュール済みデプロイメントと、CLI認証向けのvault環境変数をパブリックベータとして追加した。スケジューラの自前構築なしに定期タスクを回せ、APIキーはサンドボックス内にプレースホルダだけを置き許可ドメインへの外向きリクエスト時にネットワーク境界で注入される。
Apple Intelligence 上の新 Siri が、メールや写真などの個人データ検索、画面内容の理解、Web 知識による多段会話、専用アプリでの履歴同期を備えて登場する。AFM 3 ファミリーが基盤で、開発者向けテストは iOS 27 ほかで開始。
AI Gateway でモデル・プロバイダ・ユーザー単位などにドル建ての利用予算を設定できる spend limits が追加され、全プランでオープンベータ。Cloudflare Access 連携の本人確認付き予算はクローズドベータ。
Cursor ブラウザの Design Mode が更新され、要素のクリック・描き込み・音声で変更意図を伝えられる。選択要素の識別情報とスクリーンショットをコンテキストに載せ、複数選択や並行編集にも対応する。
Cursor Enterprise 向けに、複数チームを一括管理する組織階層とグループによるコホート制御が一般提供された。チームごとにセキュリティ・予算・機能設定を分けつつ、支出とトークン使用量を組織単位で集計できる。
Google DeepMind が Gemma 4 12B Unified を公開した。エンコーダーフリーの dense 約 12B で音声・画像・テキストを単一バックボーンに統合し、16GB VRAM のローカル実行を想定する。Apache 2.0。
チャット履歴の GitHub 同期と chronicle、Agents window の複数セッション並列、研究エージェント、統合ブラウザのお気に入りとスクリーンショット拡張、拡張機能の自動更新 2 時間遅延が中心である。
コーディング不要の業務別プラグイン6種(計62アプリ・110スキル)、Business/Enterprise 向け Sites プレビュー、アノテーション拡張を Codex に追加した。
Copilot cloud agent が automations により手動入力なしで定期実行またはリポジトリイベントに応じて動くようになった。プライベートと internal リポジトリで利用でき、トリガー・ツール・モデルを設定できる。
Microsoft AI が自社開発の MAI モデル 7 体を公開した。推論・コーディング・画像・音声・文字起こしをカバーし、Foundry と OpenRouter 等で配布する。
Microsoft 365 向けに Autopilot という常時稼働カテゴリと、その第一弾 Microsoft Scout が発表された。Teams や Outlook 上で自律的に調整・準備・リスク検知を行い、Entra ID と Purview 下で企業利用できる。
Teams プランで Standard シートの付属使用量を引き上げ、Composer and Auto と Third-Party API の独立プールを導入する。Premium シートも追加され、年間プランでは Standard 32 ドル・Premium 96 ドル、月額プランでは 40 ドル・120 ドルとなる。
2026 年 6 月 1 日から全 Copilot プランが GitHub AI Credits の使用量課金で請求される。コードレビューは AI Credits に加え Actions 分も消費し、組織向けにユーザーレベル予算が一般提供となった。
Codex アプリで Windows 向け Computer Use が利用可能になり、ChatGPT モバイルや Mac 上の Codex から Windows ホストを遠隔操作できる。利用プロファイルでトークン活動などを確認できる。
Shell・MCP・Fetch のツール呼び出しに自動レビュー実行モードが追加され、許可リストとサンドボックスのあと残りを分類サブエージェントが扱う。Cursor 3.6 以降の既定の Run Mode となる。
Claude がタスク用のオーケストレーション用 JavaScript を書き、ランタイムがバックグラウンドで多数のサブエージェントを並列実行する。CLI・Desktop・IDE 拡張と API 経由で一般提供になった。
Anthropic が Claude Opus 4.8 を公開し、Claude API では claude-opus-4-8 が利用可能になった。Opus 4.7 と同じ従量単価のまま、エージェント協業と fast mode の料金改定に加え、claude.ai の effort 制御や Messages API の system エントリ対応が同日に案内されている。
Kiro がブラウザから利用できる Kiro Web を有料サブスク向けにプレビュー公開した。自律実行モードで複数リポジトリにまたがる変更を行い、Pull Request を作成できる。
Claude Code のプラグインとして、コード編集時にコマンドインジェクションや XSS などの危険パターンを検出して警告する Security Guidance が追加された。
Google Sheets の Connected Sheets で、BigQuery の時系列データに対する異常検知が利用可能になった。BigQuery ML と TimesFM により、SQL を書かずに外れ値を判定できる。
xAIはターミナル上で動作するコーディングエージェントCLI「Grok Build」の早期ベータを公開した。Planモードでの承認フローや並列サブエージェントなどを備え、SuperGrokとX Premium Plus加入者が利用できる。
Codex アプリ・IDE 拡張・CLI で、macOS の Appshots、Goal モードの一般提供、インナーブラウザのスタイル注釈、ロック後の Computer Use、ブラウザ操作の改善がまとめて有効化された。
Cursor Automations がエージェントウィンドウから作成・管理できるようになり、複数リポジトリまたはリポジトリなしの自動化に対応した。新規作成した自動化のエージェント実行は 7 日間 50% オフとなる。
Cursor からキャンバスをチームと共有できるようになり、/loop でローカルのスケジュールに沿ってプロンプトを繰り返し実行できるようになった。
Google DeepMind がマルチモーダル生成モデルファミリー Gemini Omni を発表し、第一弾の Gemini Omni Flash を動画生成・編集向けに展開する。自然言語による多段編集、画像・音声・動画・テキストの参照合成、SynthID 透かし付き。API は数週間以内の提供予定。
Agents window から SSH や dev tunnel でリモート上のエージェントを走らせ、Mermaid と HTML の組み込みプレビュー、ユーティリティモデル設定、エージェント向けターミナル改善が中心である。
AnthropicはClaude Managed Agentsに、企業境界内でツール実行できるセルフホストサンドボックス(パブリックベータ)と、プライベートMCPサーバーへ届くMCPトンネル(リサーチプレビュー)を追加した。実行環境は自社インフラまたはCloudflare、Daytona、Modal、Vercelなどのマネージドプロバイダーから選べる。
2026年6月15日から Claude Agent SDK と claude -p はサブスクリプション利用枠に計上されず、プラン別の月次クレジットが付く。超過分は usage credits 有効時のみ標準 API 単価で継続し、無効なら Agent SDK リクエストは停止する。
Docker Desktop と CLI に組み込まれ、実行環境の情報をもとに診断・提案・操作を行う AI エージェントが一般提供になった。操作は承認制で、権限はセッション終了時にリセットされる。
Googleはエージェント向けのGemini 3.5 Flashを一般提供した。GeminiアプリやSearchのAI Mode、Antigravity、Gemini API、Gemini Enterpriseで利用できる。
単一の API 呼び出しで隔離 Linux 上のエージェントを起動し、Antigravity エージェントの拡張や AGENTS.md・SKILL.md によるカスタム定義が可能になった。モデル推論とツール利用は従量課金で、プレビュー期間中は環境コンピュートは無料とされる。
Google はターミナル向け AI を Antigravity CLI に統合し、個人向け Gemini CLI のリクエスト提供は 2026 年 6 月 18 日に終了する。エンタープライズ向け Gemini CLI と Code Assist の提供は継続する。
オンデバイス AI 体験アプリ Google AI Edge Gallery が MCP(Streamable HTTP)、ローカル通知によるルーティン、LiteRT-LM によるチャット履歴の継続に対応した。Android で実験提供し、iOS は追って更新する。
Cursorのエージェント向け自社モデルComposer 2.5が利用可能になった。長時間タスクでの知能とふるまいを強化し、FastのAPI単価はComposer 2から引き上げられる。
ワークフロー実行ログから Copilot cloud agent に失敗原因の調査とブランチへの修正 push を委任できる。Copilot Business と Enterprise が対象である。
GitHub Mobile と github.com で Copilot CLI セッションの遠隔監視・操作が一般提供になった。非 GitHub リポジトリやリポジトリ外ディレクトリにも対応し、VS Code と JetBrains からも利用できる。
VS Code や Copilot CLI で始めたエージェントセッションを `/remote on` で GitHub.com と GitHub Mobile から監視・指示できる。VS Code と JetBrains IDE でも同機能を提供し、端末を離れても PR 作成まで続けられる。
Copilot Spaces の作成・更新・削除とコラボレーター・リソース管理を、自社アプリから REST API で行えるようになった。
github.com 上で Copilot を開くと閲覧中の画面にパネルが表示され、PR や issue などの参照が自動でチャットに付く。画面遷移に合わせて参照が追従し、全 Copilot プランで一般提供された。
Google Search Centralが、AI OverviewsやAI Modeなど生成AI検索機能での表示を意識した公式ガイドを公開した。従来のSEOを基盤とし、AEOやGEO向けの独自手法は不要とする。
Ollama 0.24 から Codex App を ollama launch codex-app で起動し、ローカルモデルや Ollama Cloud のモデルをデスクトップの Codex で使えるようになった。
CircleStone LabsとComfy Orgは、アニメ特化の2Bパラメータtext-to-imageモデルAnimaの最終版ウェイト「Anima-Base v1.0」を公開した。ComfyUIネイティブで、美学チューニング前のベースモデルとして配布される。
ChatGPT モバイルアプリから、接続先 Mac 上で動く Codex のスレッドを遠隔で開始・継続・承認できるプレビューが公開された。iOS と Android、全プラン(Free と Go を含む)の対応地域で順次展開。
Issue や PR から始める GitHub ネイティブのデスクトップ体験。分離したセッションでエージェント作業を進め、検証から PR 提出・Agent Merge まで一か所で完結できる。Copilot Pro / Pro+ は早期アクセス、Business / Enterprise は段階的ロールアウト。
対象の Enterprise アカウントで、今後30日間に組織として Codex へ切り替えた新規 Codex ユーザーに、Codex 利用2ヶ月分が無料になる。適格性は申請フォームから OpenAI が確認する。
Microsoft Edge の Copilot が複数タブ横断の推論、閲覧履歴と過去チャットに基づく回答、Vision と Voice をデスクトップとモバイルで提供する。Journeys がモバイル初対応となり、Copilot Mode は廃止される。
Copilot Business と Enterprise 向けに Agent tasks REST API が public preview で公開された。Copilot cloud agent のタスク起動と進捗追跡をプログラムから行える。
Agents window が Stable でプレビュー提供され、BYOK モデルのトークン可視化と thinking effort 設定、Markdown diff プレビュー、ターミナルコマンドのリスク評価と出力圧縮が追加された。
Cursor のクラウドやセルフホスト環境で、エディタと同じランタイムやツール群を利用したカスタムエージェントを構築できる TypeScript SDK がパブリックベータとして公開された。
2026 年 6 月 1 日の使用量課金移行に合わせ、Pro と Pro+ は月額据え置きで同梱利用量を増やす Flex 枠を追加し、高用量向けの Max プランを新設する。基本枠は月額と 1:1 で固定、Flex 枠のみ変動しうる。
Bugbot は月額固定のシート制サブスクリプションを廃止し、使用量に基づく従量課金制へ移行する。また、PR レビュー時に推論レベルを選択可能になった。
AIによる推論を活用し、コードベース全体から脆弱性を特定して修正案の検証までを行うセキュリティプラットフォームが発表された。
Copilot cloud agent 向けに Actions の copilot 環境とは別の Agents 種別のシークレットと変数が追加され、組織レベルでの共有とリポジトリごとのアクセス制御が可能になった。
Cursor 3 向けに PR の作成からマージまでを一画面で扱うレビュー体験、プランの並列実行、変更の PR 単位分割、スキルのクイックアクションピン留めが追加された。
Codex が macOS と Windows 上の Chrome で、ログイン済みのサイトやアプリ上の作業を直接扱えるようになった。スレッド単位のタブグループでバックグラウンド並列実行し、利用中のブラウジングを占有しない。
Claude Code のレート制限倍増やピーク時制限の撤廃、Claude Opus の API レート制限引き上げと、SpaceX データセンターを利用した計算リソース拡張を発表した。
Anthropicは、Claude Managed Agents向けに自己改善機能のDreaming(プレビュー)やOutcomes、マルチエージェント連携などの機能を導入した。
CSSの名前のみのコンテナクエリ、動画と音声の遅延読み込み、Prompt APIへのアクセス機能が導入された。
File Search が画像とテキストを一体で扱い、Gemini Embedding 2 に基づく意味検索が可能になった。カスタムメタデータによるクエリ時フィルタと、大規模 PDF からの回答にページ番号を紐づける引用も追加された。
コーディングエージェントを活用し、コードベースの脆弱性を調査するオープンソースのセキュリティスキャナであるdeepsecが公開された。
Codex アプリに任意表示のアニメーション付きコンパニオン(Codex pets)が追加された。設定や `/pet`、コマンドパレットから表示を切り替え、他アプリ利用中もスレッド状態を重ね表示できる。
GitHub上のclaude-api skillを各社がバンドルし、IDEやターミナル上でClaude API向けのエージェント設計・プロンプトキャッシュ・モデル移行のガイドをその場で参照できるようになった。
Gemini アプリ上でプロンプトから PDF、Microsoft Word や Excel、Google の各ドキュメント形式などを生成し、端末へのダウンロードや Google Drive への書き出しができるようになった。全世界の利用者向けに提供される。
Copilot CLI の遠隔操作、ワークスペース全体での意味索引と GitHub 横断検索、スキル分離、MCP 宣言とトークン効率の改善が柱である。
Ableton・Adobe Creative Cloud・Affinity・Autodesk Fusion・Blender・Resolume・SketchUp・Spliceなど制作ツール向けのコネクタを追加し、教育機関向け提供も始めた。
OpenAI と AWS が戦略的パートナーシップを拡大し、AWS 環境で OpenAI のモデル API、Codex、Amazon Bedrock Managed Agents(OpenAI 提供)を限定プレビューとして提供する。企業は既存の調達・セキュリティ・課金の枠組みのままフロンティアモデルやエージェント基盤を試せる。
オープンウェイト向けに、有害プロンプトを送らず中間層の活性パターンから安全訓練の残存を測る CLI とライブラリがソースで公開され、続いて PyPI にも載った。Apache 2.0。
GitHub は全 Copilot プランをプレミアムリクエスト単位からトークン消費ベースの GitHub AI Credits に切り替え、2026 年 6 月 1 日に移行すると発表した。座席単価は据え置きで、補完と Next Edit 提案は引き続きクレジット消費の対象外である。
両社は契約を改定し、Microsoft を主要クラウドパートナーとしつつ OpenAI が全製品を任意のクラウドで提供できることを明文化した。Microsoft 向けの OpenAI IP ライセンスは 2032 年まで継続しつつ非独占となり、収益分配の扱いも更新される。
CLI から `/ultrareview` により、リモートのサンドボックス上で多数のレビューエージェントが差分を検証する深層コードレビューが使える。Claude Code 2.1.86 以降のリサーチプレビューで、従来のローカル `/review` とは範囲とコスト構造が異なる。
業務ツールに加え、旅行・買い物・エンタメなど生活圏のアプリを会話から接続できるようにした。会話文脈に応じたコネクタ提案や、複数候補の併記にも対応する。
セッション横断で学習するメモリ層をファイルとしてマウントし、APIや監査ログで運用できる。エンタープライズ向けにスコープ分割や共有ストアにも対応する。
Issue と Project の UI から cloud agent セッションの一覧表示とサイドバー操作が行えるようになった。Project では既定でセッション列が有効化される。
Pull request を与えると、コメント・差分・コミット・レビューを文脈に含めた回答が得られる。構造化されたレビュー案や要約を依頼できる。パブリックプレビュー利用者は diff 上の Copilot からも質問列を辿れる。
OpenAI が GPT-5.5 と GPT-5.5 Pro を ChatGPT および Codex に展開し、API でも近日利用予定とした。併せて同モデルの安全性評価の範囲を System Card として要約する。
Workspace・Google AI の対象プラン向けに、Drive 上の Ask Gemini および Drive projects、会話の継続を含む一連の機能が一般提供に移行し、リリース形態と言語に応じた段階的ロールアウトで提供される。
一般的情報を求める短いやり取り向けに、高信頼度の答えをより速く返す「Fast answers」を展開。過去会話とメモリは参照せず、ウェブとモバイルの全世界利用者向け。Personalization からオフ可能。
米国内で身元確認済みの臨床医向けに、診療現場のエビデンス確認・記録・医学研究などを支援する無料版 ChatGPT を提供開始。既存アカウントから別ワークスペースとして利用できる。
DeepSeek が V4 系 MoE 言語モデル(Flash と Pro)のプレビューを公開し、百万トークン窓と API・オープンウェイト配布をそろえた。ハイブリッド注意とポストトレーニング手順を主な技術軸として説明している。
Google Cloud は Vertex AI の発展系として、エージェントの構築から運用・統治・評価までを束ねる Gemini Enterprise Agent Platform を示した。今後の Vertex AI 機能展開は同プラットフォーム経由が前提となる方針である。
Google Sheets に、列の文脈やプロンプトから空セルをまとめて埋める Fill with Gemini が追加された。ドラッグ操作と範囲選択からの入力の二通りがあり、既存の AI 関数への入口として動作する。
OpenAI が Responses API に WebSocket 接続方式を導入し、エージェント的な多段リクエストの累積遅延を抑えた。既存の `response.create` ボディを維持しつつ、接続スコープで状態を再利用する設計としている。
Copilot Business と Enterprise でチャットに独自 API キー(BYOK)を接続でき、ブロック単位のインクリメンタル描画やエージェントセッションの並び替え、ターミナル上の Copilot CLI 起動不具合の修正を含む。TypeScript 6.0.3 を同梱する。
ChatGPT向けの新しい画像生成モデルが全プランで使えるようになった。有料プランではThinkingまたはProのモデル選択時に、生成前の計画と精緻化を行うimages with thinkingが利用できる。
Cursor がモデル学習の加速に向け、xAI の Colossus インフラストラクチャを活用する SpaceX との提携を発表した。
Gemini 3.1 Pro を基盤にした自律調査エージェントを Deep Research と Deep Research Max の二系統で提供し、MCP・可視化・コラボ計画などを追加したうえで有料ティアの一般利用プレビューが始まった。
Google が Chrome に組み込む Gemini in Chrome を、日本国内の Mac・Windows・Chromebook Plus のデスクトップ利用者向けに順次有効化する。Gemini 3.1 を用い、サイドパネルから要約・複数タブの整理・Google 各サービス連携や Nano Banana 2 による画像変換に対応する。
Copilot Pro・Pro+・Student の新規申込を一時停止し、個人プランの利用上限を引き締める。Pro から Opus 系モデルを外し、Pro+ は Opus 4.7 のみ残して 4.5・4.6 を廃止。VS Code と Copilot CLI で上限に近づいた利用状況を表示する。
Google AI Pro および Ultra の加入者が Google AI Studio で利用上限の引き上げを受け、Nano Banana Pro と Gemini Pro 系モデルにもアクセスできるようになった。
エージェントが既存のデザインシステム上で UI 意図をストリーミング記述するためのフレームワーク非依存フォーマットが 0.9 に更新され、Web 向け共有コア、公式 React レンダラ、Python 向け Agent SDK、トランスポート周りの整理が入った。
Anthropic Labs が Claude Design を研究プレビューで公開した。Claude Opus 4.7 を基盤にし、プロトタイプやスライドなどの視覚成果物を会話と細かな編集で仕上げ、Claude Code への引き渡しも用意している。
すべての Copilot プランで GitHub Copilot CLI から Copilot auto model selection を使えるようになった。利用者のプランと管理者ポリシーに応じてモデルを動的に切り替え、プレミアムリクエストは選択されたモデルの倍率に基づいて消費される。
xAI が Grok Voice などと同一スタックの Speech to Text と Text to Speech を REST と WebSocket のスタンドアロン API として公開した。バッチとストリーミングの従量課金を案内している。
Anthropic が Claude Opus 4.7 を一般提供し、API では claude-opus-4-7 が利用可能になった。高度なソフトウェア工学や視覚タスクの改善に加え、サイバー悪用を検知して遮断するガードや正当なセキュリティ用途向けの検証プログラムが案内されている。
Google が macOS 向けの Gemini デスクトップアプリを提供する。グローバルショートカットやウィンドウ共有による文脈付きの支援を、ブラウザを開かずに呼び出せる。
GitHub CLI に discover・install・update・publish をまとめた gh skill が追加され、リポジトリ由来のエージェントスキルを各ホスト向けディレクトリへ一括導入できる。GitHub CLI v2.90.0 以上が必要で、公開はパブリックプレビューである。
Enterprise または Organization 管理者が自前の MCP レジストリ URL を Copilot 方針に登録し、登録外の MCP サーバー利用をターミナル上の Copilot CLI でも防げる。パブリックプレビューで Business と Enterprise 向けである。
ChatGPT にサインインした Codex デスクトップアプリ利用者向けに、Mac 上のバックグラウンド操作、アプリ内ブラウザー、gpt-image-1.5 による画像生成、プラグイン拡充、SSH 接続やメモリのプレビューなどを順次提供する。
Google AI Studio 上で Google Cloud の請求アカウントを新規作成または連携するときにクレジットを前払い購入し、その残高から Gemini API の利用料を相殺できる。米国の新規請求アカウントから利用可能で、数週間かけてグローバル展開される見込みである。
Python 向け Agents SDK に、ファイルとツールを横断するモデルネイティブなハーネスと、制御された環境で実行するサンドボックス統合が追加された。API 経由で全顧客に提供され、トークンとツール利用に基づく通常の API 課金が適用される。
エージェントの実行ログを後から確認できるデバッグビューが追加された。Copilot CLI の推論負荷調整や、エージェントから既存ターミナルを扱う機能も強化された。
Gemini in Chrome で、よく使うプロンプトを Skill として保存し、複数タブを対象に一括実行できる機能がロールアウトされた。
プロンプト・リポジトリ・コネクタを束ねた自動化を、スケジュール・API・GitHubイベントから起動できる。Web上のClaude Code基盤で動き、端末常時接続を要しない。
page-agent は自然言語で Web UI を操作する in-page GUI agent。MCP サーバーも提供し、外部エージェントからブラウザ操作を組み込みやすい。
Hugging Face が理論物理の研究問題を解くための自律エージェント枠組み physics-intern を公開した。CritPt ベンチマークで、複数モデルのスコアをベースラインから引き上げたとしている。
月額100ドルの Pro を新設し、200ドル Pro と Plus の Codex 利用の扱いを更新する。100ドル Pro では GPT-5.4 の無制限利用、GPT-5.4 Pro へのアクセス、期間限定で Plus 比最大10倍までの Codex 利用枠(従来の Plus 比 5 倍から拡大)が含まれる。
Coworkを全有料プランで一般提供しつつ、Enterprise向けRBAC・グループ予算・利用分析・OpenTelemetry・MCPコネクタの操作単位制限など、組織展開向けの管理機能を追加した。
Executor に Sonnet または Haiku、判断が難しい局面では Opus を Advisor として挟み込むパターンを、サーバー側ツール advisor_20260301 で単一の Messages リクエストにまとめられる。beta ヘッダーとツール宣言で有効化し、利用回数は max_uses で上限設定可能。
Microsoft がオンデバイス推論向けのランタイムと SDK 群を一般提供とした。OpenAI 互換 API とモデル管理を同梱し、Windows/macOS/Linux でローカル実行を前提にした配布を狙う。
組み合わせ可能なAPIとマネージド実行環境を束ね、サンドボックスや長寿命セッションなど運用面を肩代わりする。公開ベータとして提供が始まり、トークン従量にアクティブランタイムのセッション時間課金が上乗せされる。
Gemini アプリに Notebooks 機能が追加された。NotebookLM と同期し、チャットと資料をプロジェクト単位で扱える。
Google Colab の Gemini 統合に、ノートブック単位で振る舞いを調整できる Custom Instructions と、段階的な学習支援を行う Learn Mode が追加された。共有ノートブックでは、作成者が設定した指示が共同編集者にも適用される。
Microsoft が SQL MCP Server を紹介した。Data API builder を基盤に、AI エージェントが SQL データへアクセスするための MCP サーバーをコンテナとして自己ホストできる。
AI assistance の自動コンテキスト選択とコード生成が強化され、Device Mode や Network パネルなどに複数の改善が入った。DevTools MCP サーバーと CLI も v0.21.0 に更新され、マルチエージェント運用や Lighthouse 監査が拡充された。
GitHub Copilot CLI が、GitHub 側のモデルルーティングを使わずに外部プロバイダやローカルモデルへ接続できるようになった。オフラインモードや、BYOK 利用時の GitHub 認証不要などの挙動も整理された。
Z.AIは長時間の自律的な実行を想定したフラッグシップモデルGLM-5.1を公開した。モデルウェイトはMIT Licenseで公開され、APIでも提供される。
NII の LLM-jp が 8B(Llama 2 系)と 32B-A3B MoE(Qwen3 MoE 系)をオープンソースで公開。約 12 兆トークン規模コーパス、最大約 6 万 5 千トークン入出力。ABCI 3.0。2026 年度に更大規模を順次公開予定。
Codex専用シートの従量課金化とトークン課金、レート制限なし、従来シートはCodex利用上限付きのまま、ChatGPT Businessの年額単価25ドルから20ドルへ、新規Codex専用メンバー向けクレジットプロモ、ビジネス利用とCodexの利用規模に関する数値。
GitHub Copilot のエージェント実行基盤をアプリやワークフローに組み込むための SDK が Public Preview で利用可能になった。Node.js/TypeScript、Python、Go、.NET、Java 向けに提供される。
Flex と Priority の inference tier が追加され、同期 API の `service_tier` 指定でコストと信頼性を用途別に選べる。Flex は Standard 比で割引、Priority は Standard より高いレート帯とされる。
チャット体験の改善を中心に、添付プレビューの動画対応や最終回答のみのコピー機能などが追加された。
Rectified Flow Diffusion Transformer と DACVAE 連続潜在による日本語 TTS。入力テキストへの絵文字でスタイル・感情・効果音を誘導、短い参照音声からのゼロショット Voice Cloning。v2 は Semantic-DACVAE-Japanese-32dim・学習ステップ約 2.5 倍・前処理とデータフィルタの改善。VoiceDesign はスタイル用キャプション条件付きの別チェックポイント。CLI・Gradio・Hugging Face Hub 推論、コードと公開重みは MIT。日本語入力のみ、漢字読みは同規模他 TTS 比で弱めになる場合あり。
Veo 3.1 Fast より50%未満のコストで同等速度、Text-to-Video と Image-to-Video、16:9・9:16・720p・1080p、4・6・8秒の尺、4月7日から Veo 3.1 Fast の価格引き下げ予定。
Claude Code上からローカルCodex CLIとCodex appサーバー経由でCodexを呼び出し。標準レビュー、対立型レビュー、別エージェントによる二段目への引き渡し。ChatGPT(Free含む)またはOpenAI APIキー、Node.js 18.18以上が必要。
ネイティブ音声のリアルタイム対話モデル。Google AI StudioのGemini Live APIプレビュー、Gemini Enterprise for Customer Experience、Search Live・Gemini Live利用。ComplexFuncBench Audio 90.8%、Audio MultiChallenge 36.1%(thinking on)。Gemini Liveは応答高速化と文脈追従の約2倍。Search Liveは200超の国・地域で多言語。出力音声はSynthID透かし。
承認プロンプトの自動化。入力は prompt-injection probe、実行前は Sonnet 4.6 の transcript classifier(2段階)。プロジェクト内編集は分類器を経由せず、シェル・外部ツール等のみゲート。評価では実オーバーエージャー52件でパイプライン全体の偽陰性率17%。
Copilot Free/Pro/Pro+の入力・出力・コード断片と文脈が、オプトアウトしない限りモデル訓練・改善に用いられる。Business/Enterpriseは対象外。Privacy設定で拒否可能、関連会社(Microsoft含む)との共有あり。
最長約3分の楽曲とintro・verse・chorus・bridge等の構成指定を特徴とする上位版。Vertex AI(public preview)、Google AI Studio・Gemini API、Google Vids、Geminiアプリ(有料枠から)、ProducerAIでの提供。Workspace顧客・AI Pro/Ultra加入者など面ごとのロールアウト差。出力へのSynthID埋め込み、アーティスト模倣回避、既存コンテンツ照合フィルタ、利用規約・Gen AI禁止利用ポリシー順守。
Customizations エディタ、CLI/Claude への MCP、ネスト subagent、ピッカーでの Thinking Effort、テーマとブラウザ周り。
Storage Bucket・モデル・データセットをローカル fs としてマウント。Bucket は読み書き、モデル・データセットは読み取り専用。エージェント向けストレージとしての位置づけ。
Claude Pro と Max 向けのリサーチプレビューとして、コネクタが無い場合はブラウザやマウス・キーボードで画面を操作してタスクを進められる。Dispatch と組み合わせるとスマホから指示し、離席中にデスクトップ側で作業を続けられる。
Cloudflare AI Search に OpenAI 互換形式の REST API エンドポイントが追加された。既存の OpenAI SDK から `messages` 配列を使う構成で検索とチャットを呼び出せる。
Cloudflare AI Search に、API 認証なしで利用できる公開エンドポイントと、サイトに埋め込める検索・チャットUIスニペットが追加された。あわせて MCP エンドポイントも提供され、エージェントからコンテンツ検索に接続できる。
新規の Project ビューでhierarchy viewをデフォルト有効、既存ビューはShow hierarchyで切替。sub-issue向けフィルタの発見性と自動適用、アクセシビリティ改善。課題テンプレからCopilot自動割当、メンテナ向けBlank issueの扱い変更など。
コアのchatパッケージとプラットフォーム別アダプタ、ストリーミング・Markdown・Table等のプラットフォーム差の吸収、AI SDKのtextStreamをpostへ直結、Redis・PostgreSQLのstateアダプタ、WhatsApp対応と24時間ウィンドウ等の制約、オープンソースとpublic beta。
テスト・linterに加えCodeQLやsecret scanning等の実行をリポジトリ設定から個別に選択可能に。無料・デフォルト有効、GitHub Advanced Securityライセンス不要の旨を継続。
`editor-browser` デバッグ、Copilot CLI の steering と権限、stdio MCP の sandbox、親リポのカスタマイズ探索。
MCP 経由でコミット前・PR 前の変更を GitHub secret scanning で検査。Secret Protection 有効リポジトリ向け。Copilot CLI と VS Code の有効化手順。
米国で AI Mode in Search / Gemini app / Gemini in Chrome に対して Personal Intelligence が提供開始。GmailやGoogle Photos等をセキュアに接続して、買い物・トラブル解決・旅程提案をパーソナライズ。接続アプリのオン/オフとプライバシー配慮、対象が個人向けで Workspace は対象外。
GitHub Pages上の検索付きサイト、概念解説のLearning Hub、VS CodeとGitHub Copilot CLI向けデフォルトplugin marketplace、PR経由の更新フローなど。
1M context を標準単価のまま全長で利用可能、長文脈プレミアムなし。メディア上限は画像・PDF で 600、200K 超は beta ヘッダー不要。Claude Code は Max・Team・Enterprise の Opus 4.6 で 1M を標準搭載。Bedrock・Vertex AI・Microsoft Foundry でも利用可能。
GitHub Actionsワークフロー実行における手動承認をスキップし、即座に開始できるリポジトリ設定が追加。
Imagine with Claude のプレビュー由来の方向性をチャットに統合、チャート・図・その他の視覚化を応答本文へインライン表示。artifacts とは別の一時的補助、デフォルト有効、全プランタイプ対応。
Ask Mapsの会話型検索と、Immersive Navigationの3D表示・自然な音声案内・代替ルート比較・到着前後の支援を含むGoogle Maps更新。
開いている Excel・PowerPoint 全体の文脈を 1 会話で共有。アドインで Skills・instructions 利用。Financial Analysis プラグイン経由のスターター。Bedrock・Vertex AI・Foundry と LLM gateway。Excel Agent Mode(Copilot)連携。
ワークフローをアプリ化するApp ModeとApp Builderの追加、共有プラットフォームComfyHubプレビューの公開など。
テキスト・画像・動画・音声・PDFを単一のembedding空間に写し、100超言語のsemantic intentを扱う。MRLで3072・1536・768次元を推奨。
Docsの下書き生成とスタイル統一、SheetsのFill with Gemini、Slidesの編集可能スライド生成、DriveのAI Overview対応。
PRオープン時にエージェント群が並列レビュー、概要コメントとインライン指摘。Team/Enterpriseのベータ。トークン課金でレビューあたりおおむね15〜25ドル、GitHub Appと設定で利用。
AnthropicのClaude Coworkを採用した「Copilot Cowork」を導入。複数ステップの複雑なタスクを自律実行。
週次 Stable 初版。セッション権限、Autopilot プレビュー、エージェント単位 hooks、デバッグスナップショット。
AIを活用した脆弱性報告プロセスの確立に向けた提携。メンテナの負担を軽減し、迅速な修正を実現する新たなセキュリティ調査のモデルを提示。
Deepgram Nova-3をWorkers AIで実行、会議音声をAI Gateway経由でネットワーク内処理、会議作成時のlanguage指定、10言語と地域バリアント、multiによる多言語自動検出など。
Figma MCP serverを利用して、GitHub CopilotからFigmaにレンダリング済みのUIを編集可能なフレームとして送信可能になった。VS Code向けに提供開始。
LiteRTのメジャーアップデート、低精度データ型のサポート拡充、および各種コンポーネントにおける依存関係更新とバグフィックス体制の強化など。
agentic tool calling によるリポジトリ文脈の動的取得、Copilot Pro 系プランでの一般提供
最大100万トークンのコンテキスト対応、ネイティブのコンピュータ操作搭載など。
Codexを含むChatGPTプラン向けに、Windowsデスクトップアプリの提供を開始。複数エージェントの並行実行などに連携。
Agent plugins、agentic browser tools、セッション維持とデバッグ可視化、js/ts.* 設定統一など。
evalの執筆支援、benchmarkモード、マルチエージェント並列評価、comparatorによるA/B比較、トリガー用descriptionの調整支援、ローカル保管・ダッシュボード・CI連携など。
OSSメンテナー向けにClaude Maxを6か月間無償提供するClaude for Open Sourceプログラム。GitHubスター数やnpmダウンロード数に基づく応募条件と、1万件までの応募上限や申込期限など。
PR内で検出された問題を自動で修正・テストし、プレビュー付きで提案を投稿する機能の公開。
Gemini Flashの高速処理とプロフェッショナルな画像生成能力を統合。対象物の一貫性保持、4K解像度対応、文字描画など。
Claudeのコンピューター操作能力(computer use)向上が目的。Verceptチームが合流し、既存製品は数週間以内に提供を終了予定。
タスクのスケジュール実行、テンプレート化、専用ページでのタスク管理機能の追加など。
公開用Google APIキーがGemini API有効化時に暗黙的に認証情報として機能する脆弱性。約2,863件の公開キーで確認。
ローカルで動作する Claude Code セッションをスマホ・タブレット・他ブラウザから継続可能。Max プランでリサーチプレビュー提供。
金融向けプラグイン5種の公開、FactSet・MSCIのMCPコネクタ、LSEG・S&P Globalのパートナープラグイン、Claude in ExcelとClaude in PowerPointのクロスアプリ連携のリサーチプレビューなど。
手動でThinkingを選択した際の合計context windowを、従来の196kトークンから256kトークン(入力128k、最大出力128k)に変更。
デスクトップアプリ内でのライブプレビュー、コード差分の自動レビュー、PR監視とマージ機能、セッション継続機能の追加など。
コードベースのセキュリティ脆弱性をスキャンし、ソフトウェアパッチを提案する機能の追加。現在限定プレビューとして提供中。
これまでMax・Team・Enterpriseプラン限定だった拡張機能がProプランでも利用可能に。コネクタ機能もサポート。
複雑な問題解決に向けた推論能力の向上、各種プロダクトへの機能展開など。
コーディング能力の向上、1Mトークンコンテキスト対応(ベータ)、Claude CodeでのAgent Teams機能、APIでのContext compactionやAdaptive thinkingの追加など。
コーディングやコンピュータ操作能力が大幅に向上。Opus 4.5を凌ぐ性能と1Mコンテキストウィンドウを持つ。
テキストや画像から30秒の楽曲を生成できるGoogle DeepMindの最新音楽生成モデル。SynthIDによる電子透かしも埋め込み。
RaycastのGitHub Copilot extensionを利用したIssueの直接アサイン、タスクの新規作成、進捗確認に対応。
LLM・AIエージェント向けのSlack連携サーバー提供、セキュアな検索APIの追加、検索スコープの細分化など。
OpenClaw作者のPeter Steinberger氏がOpenAIに参加。プロジェクトは財団へ移行し、今後もオープンソースとして継続。
ChatGPTでのGPT-4oおよびGPT-5等各種モデルの提供終了に関する案内。APIについての変更はなし。
科学・研究・工学向けの推論モード「Deep Think」のメジャーアップデート。ARC-AGI-2で84.6%を達成するなど、推論能力が大幅に向上。
リアルタイムコーディングに特化した小型モデル。1000トークン/秒の生成速度、Cerebrasとの提携によるインフラ活用など。
Issue Triage Workflowに関するプロンプトインジェクション脆弱性。GitHub Actionsのキャッシュポイズニングを利用した権限昇格のリスクが指摘された。
Google Cloud上でData Commons MCPサーバーのホスティングが開始。ローカルへのインストール不要で、AIエージェントからData Commonsのデータを利用可能になった。
WebGPUランタイムの導入による大幅なパフォーマンス向上、Node.js/Bun/Denoでの実行サポート、新しいビルドシステムによる軽量化など。
SWE-Bench Proで56.8%を記録した最新のコーディングエージェントモデル。25%の高速化とサイバーセキュリティ能力の向上など。
ComfyUIでの利用に最適化された2Bパラメータのアニメ特化モデル。$1Mの「Open AI」助成金プログラムによる最初の成果物として公開。
Google公式の技術ドキュメントをMarkdown形式で検索および取得できるAPIと公式MCP Serverのパブリックプレビュー版が公開。
MCP AppsやAgent hook、SkillのSlash command呼び出しのサポート、統合ブラウザの追加など
エンタープライズ向けのセキュリティ機能、Gitワークフローの統合、SnowflakeやAWSとのデータ連携機能などを追加して正式公開。
Qwen3-Next-80B-A3B-Baseをベースにしたコーディングエージェント向けモデル。SWE-Bench Verifiedで70.6%を達成。
macOS向けデスクトップアプリ「Codex App」を発表。複数のコーディングエージェントを管理し、並行開発を可能にする。
GitHub Copilotからメールや会議録などのMicrosoft 365データへアクセス可能にするMCPサーバーのパブリックプレビューを開始。
2026年2月13日にGPT-4o、GPT-4.1、o4-miniなどをChatGPTから削除。APIには変更なし。
月額1,200円でGemini 3 ProやNano Banana Pro、200GBストレージなどが利用可能な新プラン。
画像の静的な理解からエージェント的な処理への転換。ズームや検査、画像注釈、視覚的な数学やプロットなどが可能に。
MCPツールがリッチなインタラクティブUIをチャット内でレンダリング可能に。
Coding Agentでの利用に最適化されたPlaywrightのCLIモード。トークン効率が高く、ブラウザ操作のSkillを提供。
Google AI Pro/Ultraユーザー向けに提供。Gemini 3モデルを用い、Gmailや写真からパーソナライズされた検索結果を提案。
IDE内で動作するAgent駆動のデザインツール「Pencil」公開。AI Agentがプロダクションコード(React/HTML/CSS)を直接生成。
Alibaba CloudのQwen3-TTSファミリーがオープンソース化。音声クローン、音声デザインなどを提供し、10言語に対応。
AIエージェントにおけるBashとファイルシステムの最適性を検証。構造化データにはSQL、探索にはBashが適していると結論。
実装前に設計を議論できるPlan mode、推論モデルGPT-5.2-Codexの追加など。
VercelがAIエージェント向けのスキルパッケージマネージャ `skills` およびディレクトリサイト `skills.sh` を公開した。コマンドを実行するだけでエージェントにフレームワークのベストプラクティス等のスキルを追加できる。
複数プロバイダ(OpenAI、Anthropic等)のLLMを統一インフェースで利用できるMozilla製Go言語向けライブラリ。ストリーミング処理やエラーハンドリングの正規化に対応。
OpenAIが、低価格サブスクリプションプラン「ChatGPT Go」の提供地域をChatGPTが利用可能なすべての地域に拡大するとともに、無料版およびChatGPT Goプランでの広告表示テストを開始する計画を発表した。
OpenAIが、マルチプロバイダー対応の相互運用可能なLLMインターフェース構築のためのオープンソース仕様「Open Responses」を発表した。OpenAI Responses APIをベースとしており、モデルプロバイダーごとにスタックを書き直すことなくエージェントシステムの構築が可能になる。
GitHubは、GitHub Copilotの「Agentic Memory」がパブリックプレビューになったことを発表した。すべての有料Copilotプランで利用可能。
GitHub Copilot CLIにプログラムからアクセスするためのSDK「Copilot SDK」がテクニカルプレビューとして公開された。
AnthropicがClaude Coworkのリサーチプレビューを公開した。Claude Codeの非開発者向け版で、フォルダへのアクセス権限を与えることで、Claudeがファイルを読み書きできるようになる。
AppleとGoogleは、次世代のApple Foundation ModelsをGoogleのGeminiモデルとクラウド技術に基づいて構築する複数年の提携契約を締結した。
GoogleはGemini APIのアップデートを発表し、データ入力方法の拡充とファイルサイズ制限の緩和を行った。これにより、開発者は既存のデータを移動させることなく、より簡単にAIアプリケーションに統合できるようになった。
Googleは、Agentic Commerce(エージェント主体コマース)に向けた新しいオープン標準「Universal Commerce Protocol (UCP)」を発表した。UCPは、買い物客、小売業者、プラットフォーム間でのAIエージェントの相互運用性を実現する共通言語となる。
Devin のアップデートがリリース。 API経由でのセッション作成時にセッションスコープのシークレットを提供可能になったほか、Linear統合がネイティブ化されMCPの個別インストールが不要になった。 また、セッションAPIへのフィルタリング機能追加、KotlinやProtocol Buffersのシンタックスハイライト対応、PRごとのコンテキストコピー機能などが追加されている。
Cursor CLI のアップデートがリリース。 agent models コマンドや /models スラッシュコマンドによるモデルの一覧表示・切り替えが可能になったほか、/rules コマンドでのルール管理、/mcp コマンドでの MCP サーバーの有効化・無効化に対応した。 また、Hooks のパフォーマンス向上やバグ修正も行われている。 ### 参考文献
VS Code 1.108 (December 2025) がリリース。 Agent Skills (Experimental) が追加され、.github/skills(または.claude/skills)に配置した定義を GitHub Copilot が読み込み、特定のタスクを実行可能になった。 チャットセッション管理の改善や、ターミナルツール実行時の自動承認ルールの拡充(npm scripts など)も行われている。
Panda CSS v1.8.0がリリースされ、AIエージェント向けのツールを公開するMCP Server機能が追加された。 panda init-mcpコマンドでセットアップ可能。
Gemini Deep Researchがビジュアルレポート機能を強化した。Google AI Ultra加入者向けに、カスタム画像、チャート、インタラクティブシミュレーションを含むリッチなレポートを自動生成可能になった。
ComfyUIのリポジトリが@comfyanonymousから@Comfy-Orgに移行された。2026年1月6日までに完了予定。
AnthropicがAgent Skillsをオープン標準として公開し、既にClaudeだけでなくCursorやCodex、GitHub Copilotなどでも利用可能になっている。 ### 参考文献
GPT-5.2-Codexがリリースされた。複雑な実際のソフトウェアエンジニアリングに対応するエージェント活用型コーディングモデル。
Markdownファイルでコンテキストを管理するcontext-driven developmentを提案し、AIエージェントによる開発を制御可能にする。
OpenAI が、開発者が ChatGPT にアプリを提出し、審査および公開申請を行えるようになったことを発表した。
GPT Image 1.5のリリースにより生成コストが削減。数十種類のプリセットスタイルなどが利用可能に。
Google翻訳にGeminiを活用した新しい翻訳モデルが追加され、リアルタイム音声翻訳のベータ版も導入された。
Chrome DevTools MCPサーバーが機能強化され、コーディングエージェントが実行中のChromeセッションに直接接続できるようになった。
Googleが「Interactions API」を発表した。これはGeminiモデルやエージェントと対話するための統一されたインターフェースであり、現在はパブリックベータとして提供されている。
Google Cloudが「Model Context Protocol (MCP)」の公式サポートを発表した。
Google LabsがDiscoを発表した。これはタブやチャット履歴から複雑なタスクを理解し、Gemini 3でインタラクティブなWebアプリケーションを生成するブラウジング実験。
OpenAIが「GPT-5.2」をリリースし、専門的な知識労働やエージェント向けに最適化された3種類のモデルが展開される。
GitHub MCP Serverがツール固有の構成設定をサポートし、必要なツールのみを有効化できるようになった。公式Go SDKへの移行やセキュリティ強化のLockdown modeも導入された。
VS Code v1.107 (November 2025) がリリースされた。マルチエージェントオーケストレーションが導入され、GitHub Copilotとカスタムエージェントが連携して開発を加速できるようになった。Agent HQで全てのエージェントを一元管理でき、バックグラウンドエージェントはGitワークツリーを使用して隔離された環境で実行されるため、メインの作業を中断せずにタスクを委譲できる。
Linux Foundationが「Agentic AI Foundation (AAIF)」の設立を発表した。エージェントAIインフラの中立的なガバナンスを目的とし、MCPやAGENTS.mdなどをホストする。
AnthropicがClaude CodeとSlackの統合機能(Beta)を発表した。Slackのスレッド内でメンションすることで、コンテキストを読み取り自動的にClaude Codeのセッションを開始できる。
Devinの12月5日のアップデートでは、データ分析に特化した「Data Analyst Devin (Dana)」が全ユーザーに公開された。MCP経由でデータソースに接続するだけで、データの探索や可視化、インサイトの取得が可能になる。
Anthropicは、JavaScriptランタイム「Bun」を買収したことを発表した。BunチームはAnthropicに参加し、Claude Codeのインフラストラクチャ構築を加速させる。
AWSは、マネージド型のリモートModel Context Protocol (MCP) サーバー「AWS MCP Server」のプレビュー版を発表した。 これにより、AIエージェントやAIネイティブIDEが、AWSサービス上での実際のタスク実行や情報検索を安全かつ効率的に行えるようになる。
Cloudflare Agents SDK v0.2.24がリリースされた。再開可能なストリーミング、MCPクライアントの改善、スケジュールの修正が含まれる。
AnthropicがClaude Opus 4.5をリリースした。SWE-bench Verifiedで最高スコア、いくつかのベンチマークでGemini 3 ProやGPT-5.1 Codex-Maxを上回るスコアを記録。
Nano Banana 1(Gemini 2.5 Flash Imageモデル)がGoogle検索のGoogleレンズとAIモードで利用可能になった。日本でも順次提供開始。
Googleが画像生成・編集モデルNano Banana Pro(Gemini 3 Pro Image)を公開した。Gemini 3 Proを基盤とし、Gemini 3の推論能力と現実世界の知識を活用して画像生成と編集を実現する。
AI検索エンジンの普及により、SEO(Search Engine Optimization)からGEO(Generative Engine Optimization)への移行が進んでいる。米国の消費者の約半数がAI検索を使用してブランドを評価・発見している。
Googleがエージェント開発プラットフォームGoogle Antigravityをパブリックプレビューで公開した。Gemini 3を基盤としたAI支援IDEで、エージェントファーストの開発環境を提供する。
xAI が API 向けに Grok 4.1 Fast と Agent Tools API を公開した。前者は最大 200 万トークンのコンテキストでツール連携向けに最適化されている。
GoogleがGemini 3をリリースした。Gemini 3 Proはreasoning、multimodality、codingのベンチマークで以前のモデルを上回る。WebDev Arenaリーダーボードで1487 Eloを記録。Terminal-Bench 2.0で54.2%、SWE-bench Verifiedで76.2%を記録し、2.5 Proを大きく上回る。
GitHub Copilot CLIに新機能が追加された。最新のAIモデルサポート、コード検索の強化、画像サポートの改善が含まれる。
AWSがAI開発ツールKiroの一般提供を開始した。Kiroは仕様駆動開発をAIコーディングツールに導入し、AIエージェントと共に作業するための構造化された開発手法を提供する。
VS Code StableでMCPレジストリと許可リスト制御機能がパブリックプレビューで利用可能になった。EnterpriseおよびOrganization管理者がMCPレジストリを設定し、許可リストポリシーを適用できる。
MicrosoftがIgnite 2025で、WindowsプラットフォームでのMCPネイティブサポートをパブリックプレビューで発表した。AIエージェントがWindowsやアプリケーションを操作できるようになる。
OpenAIがChatGPTでグループチャット機能のパイロット提供を開始した。友人、家族、同僚と同じ会話内で協働し、計画や意思決定、アイデア出しが可能。
GitHub Copilot coding agentをrulesetsのbypass actorとして設定できるようになった。エージェントが特定のルールに準拠できない場合でも、エージェントの使用をブロック解除できる。
OpenAIがGPT-5.1をリリースした。ChatGPTの応答が向上し、ユーザーの好みに合わせたカスタマイズが容易になった。
Visual Studio Code 1.106がリリースされた。主な更新として、Agent HQ、Plan agent、Cloud agents、CLI agentsなどのAIエージェント機能が追加された。
Google WorkspaceがGoogle DriveでPDFのAI音声要約機能を追加した。Gemini for Google Workspaceの機能で、長文のPDFを会話形式のポッドキャストスタイルの音声要約に変換できる。
GoogleがGemini APIにFile Search Toolを追加した。完全管理型のRAGシステムで、データグラウンディングを簡素化し、より正確な応答を実現する。
GoogleがAI駆動ファイルタイプ検出システムMagika 1.0をリリースした。初回の安定版で、200種類以上のファイルタイプに対応(以前の約100種類から倍増)。
GitHubのpull request「Files changed」ページのパブリックプレビューに新機能が追加された。
GitHub Copilot coding agentがpull requestテンプレートをサポートするようになった。Copilot coding agentが作業を完了すると、変更の概要をpull requestの本文に更新する。リポジトリのpull requestテンプレートに従って本文を記述可能。
GoogleがGemini APIのStructured Outputsを改善した。JSON Schemaサポートを拡張し、プロパティ順序の保持を追加。
Google MapsにGemini AI機能が追加された。AndroidとiOSの一般ユーザー向けに、音声ナビゲーション、ランドマークベースのナビゲーション、プロアクティブな交通アラート、Lens機能が利用可能になった。
Kiro v0.5.xがリリースされた。Remote MCPサポート、Global Steering Rules、AGENTS.mdサポート、ワンクリックMCPインストールなどの機能が追加された。
Cursorのバージョン2.0がリリースされた。 - マルチエージェント: 1つのプロンプトに対して最大8つのエージェントを並行実行可能(git worktreesを利用)。 - Composer: 高速なエージェント型コーディングモデル。 - Browser (GA): エージェントがWebブラウジングを行い、DOM情報を取得可能に。 - サンドボックス化されたターミナル: macOSでエージェントのコマンド実行を安全な環境に隔離。 - チーム機能: チーム共有のコマンドやルール定義が可能に。 ### 参考文献
GitHub MCP Serverがアップデートされ、「Server instructions」とツールの統合が行われた。
Googleは、Gemini CLIのJules extensionを発表した。 Julesはターミナルでの作業中にバックグラウンドで自律的にタスクを実行する「サイドキック」エージェント。 Jules extensionをインストールし/jules コマンドを使用することで、非同期タスクの実行、バックグラウンドでのバグ修正、PR作成後のブランチ作成などを任せることができる。 ### 参考文献
OpenAIは、オープンソースの安全ガードレールモデル「GPT OSS Safeguard」をリリースした。 これは、企業や開発者が独自の安全ポリシーを定義・施行するためのモデルであり、120bと20bの2つのサイズが公開されている。 推論時にポリシーを直接解釈する「Chain of Thought」プロセスを採用しており、再学習なしでルールの更新が可能。透明性の高い判定理由も提示される。 ### 参考文献
プルリクエストのコメントで @copilot にメンションすることで、Copilot Coding Agentに変更を依頼できるようになった。 Copilotはバックグラウンドで作業を行い、既存のPRに対して新しいPR(変更案)を作成してレビューをリクエストする。マージするまで元のPRは変更されないため、安全に提案を確認できる。 ### 参考文献
SlackのGitHubアプリがCopilot Coding Agentに対応した。 Slackのスレッドで @GitHub にメンションすることで、会話の内容からコンテキストを読み取り、直接Copilotエージェントにタスク(例:「ナビゲーションアイコンのツールチップ修正」)を依頼できる。進捗もスレッド内で確認可能。 ### 参考文献
GitHub Copilot向けのカスタムエージェント機能が登場した。 リポジトリ内の .github/agents に設定ファイルを配置することで、特定のワークフローやルール(React/Vueの規約強制など)に特化したエージェントを定義できる。カスタムMCPサーバーやツールの利用も設定可能。 ### 参考文献
OpenAIは、ChatGPT Enterpriseユーザー向けに、組織内の情報を活用可能にする「Company Knowledge」を導入。
OpenAIは、ChatGPTを中核に据えた新しいウェブブラウザ「ChatGPT Atlas」を発表。macOS版が先行公開された。
Googleは、Gemini APIで「Google Maps」を使用したGrounding(情報の根拠付け)が利用可能になったことを発表。
Anthropicは、Claude向けの新しい機能「Agent Skills」を発表。
Googleは、Gemini CLIを拡張し、ターミナル内での複雑なインタラクティブコマンドのサポートを追加。
GitHubは、GitHub.com上でCopilotを使用してコミットメッセージを生成する機能が一般提供(GA)されたことを発表。
Google Cloudは、職場でのAI活用の「入り口」となる新しい高度なエージェント型プラットフォーム「Gemini Enterprise」を発表。
VS Code v1.105 (September 2025) がリリース。AIによる開発支援機能が強化された。
Googleは、Gemini CLIの拡張機能(Extensions)を導入。これにより、開発者はGemini CLIを自身のワークフローやツールに接続し、カスタマイズすることが可能になった。
Googleは、Gemini CLI向けの新しい拡張機能「Genkit Extension」を発表。
Google DeepMindは、Gemini 2.5 Proをベースにした「Gemini 2.5 Computer Use」モデルをプレビュー版としてAPIで提供開始。
OpenAIは、エージェントを構築、展開、最適化するための包括的なツールセット「AgentKit」を発表。
OpenAIは、ChatGPT内で直接動作する「アプリ」と、その開発を行える「Apps SDK」(プレビュー版)を発表。
OpenAIは、Codexの一般提供開始(General Availability)を発表。以下の3つの新機能が追加された。
Gemini 2.5 Flash Imageが一般提供開始。10種類のアスペクト比と画像のみの出力に対応。
Perplexityは、同社が開発したWebブラウザ「Comet」を全世界で一般公開した。
AWS Knowledge Model Context Protocol (MCP) Serverが一般提供開始。AI agentsとMCP clientsがAWSの公式ドキュメント、ブログ記事、新機能の発表、Well-Architectedのベストプラクティス、AWS APIとCloudFormationリソースのリージョン別の可用性に関するナレッジなどにアクセス可能。
Anthropicは、ClaudeとSlackの2つの統合方法を発表。
OpenAIが動画生成AIモデル「Sora 2」と、Sora 2を利用して動画を生成し共有できるiOS用SNSアプリ「Sora」を公開。
OpenAIがChatGPT内で直接製品を購入できる「Instant Checkout」機能をリリース。Stripeと共同開発したオープンソースである「Agentic Commerce Protocol」を基盤とする。
Claude Sonnet 4.5がリリース。
Gemini 2.5 Flashと2.5 Flash-Liteの更新版がGoogle AI StudioとVertex AIで利用可能に。品質向上と効率性の改善を両立した新バージョン。
Google AI ProとUltra購読者向けにGemini CLIとGemini Code Assistのリクエスト制限が緩和。 各プラン毎に制限は次の通り。
Chrome DevTools MCPサーバーがパブリックプレビューとして公開。AIがChrome DevToolsの機能を直接利用できるようになり、ブラウザ上でのデバッグとパフォーマンス分析が可能に。
Gemini CLIがFastMCPと統合され、MCP server開発が大幅に簡素化。Pythonのdecoratorとtype hintsを使用してMCP serverを簡単に構築できるようになった。
xAIがGrok-4 Fastを発表。Grok-4の知見を活かした新しい推論モデルで、enterpriseとconsumer向けに高いパフォーマンスと優れたtoken効率を提供。
GeminiでCustom Gemsの共有が可能に。Google Driveと同様の共有制御で、閲覧・編集権限を個別設定が可能。 ### 参考文献
AIブラウジングアシスタントであるGemini in Chromeが提供開始。現在は米国のMac・Windowsユーザー(英語設定)のみ。
GoogleがAgent Payments Protocol (AP2)を発表。プラットフォーム間でAIエージェント主導の決済を安全に開始・処理することを可能にするオープンプロトコル。Adyen、American Express、Coinbase、Mastercard、PayPal、Salesforceなど60以上の組織が強力。
AnthropicがXcode 26でClaude Sonnet 4の統合を一般提供開始。Appleプラットフォーム向けアプリ開発でClaudeのコーディング機能を直接利用可能。
OpenAIがGPT-5にコーディングエージェント向けに最適化を行ったGPT-5-Codexをリリース。 Codex IDE extensionやCodex CLI、GitHubなどで既に利用可能。 ChatGPTのライセンスでは、Plusプラン以上のユーザーが利用可能。 ### 参考文献
AnthropicがClaudeアプリにMemory機能を導入。チームのプロジェクトと設定を記憶し、コンテキストの再説明を不要にし、複雑な作業の継続を可能にする。
AlibabaのAI研究チームがコストパフォーマンスの高いAIモデル「Qwen3-Next」を無料公開した。従来モデルと比べて10分の1以下のコストでトレーニングされながら、入力トークンが多い状況では10倍以上高速な推論処理を実現する。
GoogleがGemini Batch APIで埋め込みモデルとOpenAI互換性をサポートした。新しくリリースされたGemini Embeddingモデルに対応し、非同期処理で50%低い料金での高ボリューム処理が可能になった。
AnthropicがClaude.aiとデスクトップアプリでファイル作成・編集機能を追加。ExcelやWord、PDFなどのファイルを直接生成可能に。
Google検索の「AIモード」の日本語対応を開始。Gemini 2.5のカスタムバージョンを使用し、従来の2-3倍の長さの複雑な質問に回答する。
GitHubがRemote GitHub MCP Serverを一般公開した。またOAuth 2.1 + PKCE認証の導入、Copilot Coding Agentの統合、セキュリティ機能の強化などが行われ、AIツールとGitHubの連携が大幅に改善された。
OpenAIがChatGPTの会話分岐機能をウェブで公開した。異なる方向性を探求しながら元の会話を維持できるようになり、より柔軟な対話体験を提供する。
OpenAIがChatGPTのProjects機能をFree Tierでも利用可能にした。チャットとファイルを一箇所にまとめ、作業の整理を支援する機能が無料ユーザーにも開放された。
Copilot Coding Agentが、custom instructionを形式としてAGENTS.mdをサポートするようになった。
OpenAIがRealtime APIをベータ版から正式版にアップデートし、新しい音声対話モデル「gpt-realtime」を発表。 低遅延・高信頼性の音声認識と生成、複雑な指示の理解と正確なツール呼び出し、より自然で表現豊かな音声生成、システムメッセージと開発者プロンプトの解釈能力向上などが行われた。また画像入力の対応、MPCサポートの有効化などの改善も行われた。
xAIが「Grok Code Fast 1」をリリース。コーディング性能に優れた高速推論モデルで、日常業務向けに最適化されている。
GitHub Copilotコード補完で、GPT-4.1 Copilot モデルが使用されるようになった。全てのプランのユーザーに自動的に適用される。
GoogleがGemini 2.5 Flash Imageを公開。このモデルは発表以前からnano-bananaとして話題になっていた強力な一貫性の維持が可能な画像生成・編集モデル。Geminiアプリの他、APIでの利用も可能。
OpenAIがCodexの機能を強化し、VS CodeやCursor向けの新しい拡張機能をリリース。
AnthropicがClaude for Chromeをテスト公開。Maxプランユーザーに段階的に展開される。ブラウザのサイドパネルでClaudeが直接動作し、ユーザーの指示に従ってボタンクリックやフォーム入力といったウェブサイトを操作することができる。
FFmpeg 8.0で、Whisperフィルターが新しく追加された。これにより、FFmpeg単体でOpenAIのWhisperモデルを使用した自動音声認識が可能になった
ClaudeのEnterpriseおよびTeamプラン向けに、Claude Codeを含むプレミアムシートと新しい管理コントロールが導入された。これにより、Claudeアプリとコーディングエージェントが1つのサブスクリプションで利用可能になる。管理者は、新しい管理機能とCompliance APIを利用して、組織全体での利用を管理、統制できる。
Google検索のAI Modeが日本を含む180以上の国と地域で一般公開された。現在は英語でのみ利用可能。また、米国Google AI Ultra向けにエージェント機能などをLabsを通じて提供する。
OpenAIが、AIコーディングエージェントをガイドするためのAGENTS.mdサイトを公開。 今までAGENTS.mdの仕様策定は非公開であったが、公式サイトが公開され議論や標準化作業がオープン化された。
ComfyUIがQwen-Image-Editをネイティブサポート。ワークフローのテンプレートからすぐに利用可能。
Gemini APIのURLコンテキストツールが一般公開された。このツールにより、開発者はコンテンツを手動でアップロードする代わりに、URL形式でモデルに追加のコンテキストを提供できるようになる。
Anthropic APIで、Claude Sonnet 4が最大100万トークンのコンテキストをサポート開始。これは従来の5倍に増加し、75,000行以上のコードベースや数十の研究論文を単一のリクエストで処理可能。この機能はAnthropic APIとAmazon Bedrockでパブリックベータとして利用でき、Google CloudのVertex AIでも近日提供予定。
ComfyUIが、Alibaba PAIチームが開発した動画生成モデルWan2.2 Fun ControlおよびWan2.2 Fun InPをネイティブでサポートした。同時に、動画生成を高速化するLightX2V Wan2.2 Lightning LoRAも統合。両モデルはApache 2.0ライセンスでリリースされており、商用利用が可能。
Gemini CLIの最新アップデートにより、VS Codeの統合ターミナルとの連携機能が強化された。このIDE統合によって、Gemini CLIが開発者の作業コンテキストを理解し、提案をエディタ内で直接差分表示することが可能になる。
ComfyUIにサブグラフ機能が公式にリリースされた。この機能により、関連する複数のノードを単一の再利用可能なノードにまとめることが可能になる。複雑なワークフローを、シンプルで管理しやすいモジュール部品のように構築できる。
AI搭載コードエディタのCursorで、OpenAIの最新モデルであるGPT-5が利用可能になった。Cursor開発チームによると、同モデルはコーディングにおいて非常に効果的であるという。
OpenAIは、同社で最も高性能、高速、汎用性を備えたフラッグシップモデル「GPT-5」をリリース。推論とチャットを単一のシステムに統合。全ユーザーが利用可能となり、有料ユーザーは利用制限が引き上げられる。上限に達するとGPT-5 miniに切り替わる。Pro登録者は利用制限が緩和され、拡張推論機能を備えた「GPT-5 Pro」にもアクセス可能になる。 ### 参考文献
VS Code v1.103がリリース。GPT-5のサポートやMCP体験の改善、Git worktreeのサポート、コーディングエージェントのセッション管理用ビューの追加など。
Claude Codeに、コードのセキュリティレビューを自動化する機能が追加された。GitHub Actionsとの連携や、新しい/security-reviewコマンドを使用して、開発者はコードの脆弱性を特定し、修正を依頼できる。これにより、脆弱性がproduction環境に到達する前に発見し、対処することが可能になる。
Claude Opus 4のアップグレード版であるClaude Opus 4.1がリリースされた。このモデルは、エージェントタスク、実世界でのコーディング、および推論能力が向上している。SWE-bench Verifiedにおけるコーディング性能は74.5%に達し、詳細なリサーチやデータ分析スキル、特に詳細追跡とエージェント検索の能力が改善された。
Googleの非同期コーディングエージェントJulesが、ベータ版を終了し一般公開された。Gemini 2.5 Proを搭載し、コーディングプランを策定することで、より高品質なコード出力を実現する。
Vercelが公式のVercel MCPサーバーをパブリックベータとして公開。Vercel MCPは、AIクライアントがVercelプロジェクトと安全に対話するための、OAuth準拠のセキュアなインターフェース。CursorやClaudeなどのサポートされたAIツールが、開発環境やAIアシスタント内から直接、Vercelのログ、ドキュメント、プロジェクトメタデータにアクセス可能になる。
OpenAIは、Apache 2.0ライセンスの下で利用可能な2つのオープンウェイト言語モデル「gpt-oss-120b」と「gpt-oss-20b」をリリースした。これらのモデルは、推論タスク、ツール使用、few-shotの関数呼び出しにおいて高いパフォーマンスを発揮し、一般的なハードウェア上での効率的な展開のために最適化されている。
Hugging Faceが、コマンドラインインターフェース(CLI)ツールを刷新し、huggingface-cliからhfへと名称を短縮。開発者の利便性向上を目的としたアップデート。
GoogleがGemini 2.5 DeepThinkを発表。複雑な問題に対し、複数のアイデアを同時に生成・評価・修正して、より創造的で思慮深い回答を導き出す「並列思考」技術を搭載。
github.com上のCopilot Chatに、新しいリポジトリ管理機能が追加。チャットインターフェース内で直接、リポジトリ関連のさまざまなタスクを実行できるようになり、アイデアからデプロイまでのワークフローの効率化を目指す。
Copilot Coding Agentが、フィードバックに対応する過程でプルリクエストのタイトルと本文を自動的に更新するようになった。これにより、ユーザーは加えられた変更の概要を即座に確認できる。 ### 参考文献
Gemini CLIにカスタムスラッシュコマンド機能が追加。ユーザーは再利用可能なプロンプトを定義し、Gemini CLIとの対話を効率化できる。コマンドはTOMLファイルベースで定義され、引数の受け渡しやシェルコマンドの直接実行もサポートする。
GoogleはLangExtractを発表。これは、非構造化テキストから構造化情報を抽出するための新しいオープンソースPythonライブラリ。GeminiのようなLLMを利用し、ユーザーのカスタム指示に基づいて、柔軟性と追跡可能性を両立した情報抽出を実現する。医療レポートや法的文書など、テキストが多用される分野での活用が期待される。
Anthropicは、Claude ProおよびMaxプランに新しい週間レート制限を導入すると発表。この変更は2025年8月28日から適用される。現在の利用状況に基づくと、この制限が影響を及ぼすのは加入者の5%未満と推定される。
Devin に MCP (Model Context Protocol) Marketplaceを導入。専用マーケットプレイスで数千のツールと統合機能を提供し、Linear、Notion、AWS サービスなどにワンクリックで接続可能。
Anthropic が Claude Code でカスタムサブエージェント機能を発表。特定タスク専用の AI アシスタントを作成可能で、独自のコンテキストウィンドウとカスタムシステムプロンプトを持つ。各サブエージェントは特定ツールへのアクセス制限が可能で、メインの会話と分離された専門的な作業を実行。
GitHub Copilot coding agent が *.instructions.md カスタム指示をサポート。従来の .github/copilot-instructions.md に加えて、.github/instructions フォルダ内の複数ファイルに対応。YAML frontmatter により特定のファイルやディレクトリに適用範囲を指定可能。 ### 参考文献
GitHub Spark が Copilot Pro+ 加入者向けにパブリックプレビューとして利用可能に。自然言語を使ってアイデアからフルスタック知能アプリまで数分で作成可能。Claude Sonnet 4 を使用してフロントエンド・バックエンド機能を含むアプリを生成。
Gemini 2.5 Flash-Lite の安定版が一般公開。Gemini 2.5 ファミリーで最も高速かつ低コストなモデル。入力 $0.10/1M トークン、出力 $0.40/1M トークンで pricing を設定。1M トークンのコンテキストウィンドウをサポートし、native reasoning capabilities を搭載。
Qwen3-Coder が発表。最も強力な Qwn3-Coder-480B-A35B-Instruct は、480B パラメータ、35B active parameters の Mixture-of-Experts (MoE)モデル。256K トークンのコンテキスト長をネイティブサポートし、外挿手法で 1M トークンまで対応。Agentic Coding、Agentic Browser-Use、Agentic Tool-Use でオープンモデル最高性能を達成し、Claude Sonnet 4 と同等の性能。
Gemini 2.5 で会話型画像セグメンテーション機能を発表。従来の単語ラベルから複雑な記述的フレーズの解析に進化。「最も遠くにある車」「傘を持っている人」など自然言語クエリで画像の特定領域を抽出可能。
GitHub Copilot code review の今後の非推奨化と変更について発表。8 月 1 日に coding guidelines が copilot-instructions.md に統合され、9 月 1 日に完全廃止。8 月 6 日には「Request pull request review from Copilot」チェックボックスが独立した設定項目として移動し、より見つけやすく使いやすくなる。また、Copilot code review 専用のエンタープライズ・組織ポリシーが導入され、より細かい制御が可能に。 ### 参考文献
OpenAI が ChatGPT agent を発表。Operator、Deep Research、ChatGPT を統合した統一エージェントシステムで、仮想コンピューター環境で複雑なマルチステップタスクを自動実行する。チャットから実行への根本的転換を実現。
Google が Gemini Drops 月次アップデート企画を開始。Gemini アプリの新機能紹介とヒントを毎月提供する定期アップデート形式を導入。
Veo 3 が Gemini API と Vertex AI で有料プレビューとして利用可能に。Text-to-Video 機能を提供し、近日中に Image-to-Video 機能も追加予定。
Grepが Model Context Protocol(MCP)をサポートし、AI アプリが 100 万の公開 GitHub リポジトリを標準インターフェースでクエリ可能に。Cursor、Claude、その他のエージェントでコード検索が HTTP 経由で利用できる。
GitHub Copilot の Issue 作成機能でプロジェクト固有のテンプレートを活用出来るようになった。
Google が検索に Gemini 2.5 Pro、Deep Search、AI 通話機能を追加。より高度な AI 機能により検索体験を大幅に改善し、複雑な質問への回答とビジネス連絡の自動化を実現。
GitHub Copilot coding agent にインターネットアクセス設定機能を追加。組織やエンタープライズ環境でのセキュリティ要件に応じて、agent のインターネットアクセスを制御できるようになった。 ### 参考文献
AWS が新しいエージェント型 IDE Kiro を発表。プロトタイプからプロダクションまでをカバーする spec-driven development 手法を採用し、AI 開発の品質と効率を両立する開発環境を提供。現在無料プレビューで利用可能。
GitHub Copilot Chat のパブリックプレビュー中だった機能が github.com 上の全ユーザーに一般提供開始された。インスタントプレビュー、柔軟な編集、issue 管理、改善された添付機能、モデル選択などを含む。
GitHub MCP server に Copilot coding agent にタスクを委譲する新しいツールが追加された。バックグラウンドでの作業実行により、開発者のワークフローを中断することなくタスクを処理可能。
VS Code v1.102 がリリース。MCP サポートの正式対応、GitHub Copilot Chat のオープンソース化、Copilot coding agent のバックグラウンド委譲機能、カスタムインストラクション自動生成など開発者ワークフロー改善の重要なアップデートを提供。
GitHub Mobile アプリで Copilot code review が一般提供開始された。バグの識別、潜在的なパフォーマンス問題の検出、修正提案の提供により、基本的なレビューを AI エージェントに委譲可能。
Google が Gemini API に Batch Mode を導入した。高スループット、レイテンシーが重要でないワークロード向けの新しい非同期エンドポイントで、同期 API と比較して 50%割引で提供される。
GitHub Copilot のエージェントページが提供開始された。リポジトリを選択してタスクを記述し、Copilot に作業を委任できる。Copilot はドラフトプルリクエストを作成し、レビューが必要な際に通知する。複数のタスクを同時に処理し、進捗状況をページで確認することも可能。
GitHub Copilot の Code Review 機能が大幅に改善された。GitHub 上のプルリクエストの約 30%が 20 ファイル以上を含むが、より多くのファイルをより詳細にレビューできるようになった。
GitHub Copilot の Coding Agent に Web ブラウザ機能が追加された。Playwright MCP サーバーを活用し、Web アプリケーションとの対話が可能になった。これにより、Copilot はバグの再現や作業の検証を行い、プルリクエストにスクリーンショットを含めることもできる。
GitHub Docs で Copilot Search 機能が提供開始された。検索バーで直接質問を入力し、包括的で実用的な回答と関連ドキュメントへのリンクを受け取ることができる。
Anthropic が Claude Desktop 向けに Desktop Extensions 機能を導入。MCP サーバーの複雑なインストール過程を解決し、.dxtファイルのダブルクリックだけで MCP サーバーを導入可能になった。
Google が Gemini 2.5 Pro を搭載したオープンソースの AI エージェント「Gemini CLI」をプレビュー版として提供開始。ターミナル環境でコード理解、ファイル操作、コマンド実行、動的トラブルシューティングが可能になる。
GitHub Copilot coding agent が Copilot Business と Copilot Pro プランで利用可能になった。先月 Copilot Pro+と Copilot Enterprise ユーザー向けにパブリックプレビューで開始された coding agent が、6 月 24 日に Copilot Business ユーザー、6 月 26 日に Copilot Pro ユーザー向けにパブリックプレビューとして提供開始。
Qwen VLO(Vision Language Object)が発表。
Anthropic が Claude アプリ内でインタラクティブな AI 搭載アプリの構築、ホスティング、共有機能を導入。開発者はスケーリングの複雑さやコストを気にせずに AI アプリの反復開発が可能になる。
Anthropic の Claude Sonnet 4 と Claude Opus 4 が GitHub Copilot で正式に利用可能になった。 ### 参考文献
Google が Google Sheets で AI 関数を導入し、セル内で Gemini を直接利用したデータ生成が可能になった。スプレッドシートのデータを活用したテキスト生成、要約、分類、感情分析を実行できる。
Google が Google I/O 2025 で発表した AI ファースト Google Colab を全ユーザーに提供開始。ノートブック内で AI が真のコーディングパートナーとして機能し、困難な問題をこれまで以上に高速で解決できるよう設計されている。
カリフォルニア州北部地区の William Alsup 判事が Anthropic の AI 著作権訴訟で部分的勝訴の判決。合法的に購入した書籍での AI モデル学習は著者の許可なしでもフェアユースと認定された。AI 業界初の有利な判決となる。
Google が Imagen 4 を Gemini API の有料プレビューと Google AI Studio の限定無料テストで提供開始。これまでで最高の text-to-image モデルとして、特にテキストレンダリングが大幅に改善された。
Microsoft が VS Code で動作するおすすめ MCP サーバーの一覧ページを公開。おすすめの MCP サーバーをキュレーションし、ワンクリックインストール機能と合わせて開発者の利用を促進。
OpenAI が次の 3 つの Agents SDK を利用したデモを公開。
Anthropic が Claude Code でリモートサーバーサポートを発表。ローカルサーバー管理なしでお気に入りのツールやデータソースに接続可能。
GitHub Copilot の有料プランユーザーに対する月次プレミアムリクエスト割り当てが施行開始。Copilot Pro、Pro+、Business、Enterprise プランでプレミアムリクエストの月次割り当てが強制適用される。
Google が Gemini 2.5 モデルファミリー全体にわたるアップデートを発表。Gemini 2.5 Pro と Gemini 2.5 Flash が一般提供開始、新たに Gemini 2.5 Flash-Lite をプレビューで提供開始。
GitHub が Remote GitHub MCP Server をパブリックプレビューとして公開。GitHub Copilot、Claude Desktop、その他の AI ツールが Model Context Protocol(MCP)を通じて GitHub のライブコンテキストとツールにシームレスにアクセス可能に。
Visual Studio Code 1.101 で AI 関連機能が大幅に強化。Model Context Protocol(MCP)サポートの拡張により、プロンプト、リソース、サンプリング機能を追加し、エージェントコーディングフローを拡張。
Aim Labs が Microsoft 365 Copilot に対する重大なゼロクリック攻撃脆弱性「EchoLeak」を発見し、Microsoft の MSRC チームに報告。ユーザーの操作なしに機密情報を自動的に窃取可能な、主要な AI アプリケーションで発見された初のゼロクリック脆弱性として注目。
OpenAI が最も高性能な推論モデル「o3-pro」をリリース。従来の o1-pro に代わって ChatGPT Pro と Team ユーザー向けに提供開始、Enterprise・Edu ユーザーは翌週から利用可能。開発者 API 経由でも同日午後から利用開始。
Docker 創業者で Dagger 社創業者兼 CTO の Solomon Hykes 氏が、コーディングエージェント向けのオープンソースツール「Container Use」を公開。すべてのコーディングエージェントに対して独立した開発用コンテナ環境を提供し、分離された安全な作業環境を実現。
Anthropic が米国国家安全保障顧客向けに特化した AI モデル「Claude Gov」を発表。最高レベルの国家安全保障機関で既に導入済み、機密環境で運用する組織のみがアクセス可能。
Figma が「Dev Mode MCP Server」のベータ版をリリース。MCP(Model Context Protocol)に対応し、Figma のデザインコンテキストを LLM に提供するサーバー。VS Code with Copilot、Cursor、Windsurf、Claude Code などのエージェント型コーディングプラットフォームから利用可能。
Google が Gemini 2.5 の新機能として音声ダイアログと生成機能を発表。24 以上の言語で自然な音声を生成可能に。音声の品質と自然さを向上させるため、感情表現や話者の個性を考慮した生成が可能。 ### 参考文献
Gemini 2.5 Pro がアップグレードされ、より高度な機能を提供。LMArena で 24 ポイント、WebDevArena で 35 ポイントの Elo スコア向上を達成。LMArena では 1470 ポイントでリーダーボードを維持し、WebDevArena では 1443 ポイントで首位を獲得。また Google AI Studio と Vertex AI で思考予算(thinking budgets)を追加し、コストとレイテンシーの制御が可能に。 ### 参考文献
Perplexity が有料プラン「Perplexity Pro」ユーザー向けに「Perplexity Labs」を発表。レポートやスプレッドシート、ダッシュボード、アプリなどの複雑で高度なコンテンツを自動生成可能。10 分以上の自己監督作業を行い、ディープウェブブラウジング、コード実行、グラフや画像の作成などを駆使してアイデアを成果物に変換。
Google I/O 2025 で Gemini API に多数の新機能と改良が発表された。新モデルの追加、思考プロセスの可視化、ツール連携強化、動画理解向上など、開発者向けの大幅な機能拡張が実施。特にエージェント開発やマルチモーダル対応、リアルタイム生成機能が大幅に強化された。
Anthropic が Claude 4 ファミリー(Opus 4、Sonnet 4)を発表。Opus 4 は世界最高水準のコーディング性能と長時間タスク持続力を持ち、SWE-bench や Terminal-bench でトップスコアを記録。Sonnet 4 も従来比で大幅に性能向上。両モデルともツール利用やメモリ機能が強化され、複雑なエージェントタスクや長期的な文脈保持が可能。
Claude 4(Opus 4 / Sonnet 4)向けのプロンプトエンジニアリング手法が公式ドキュメントで公開。明確かつ具体的な指示、文脈や動機の明示、例示の活用が推奨されている。出力フォーマット制御や思考プロセスの誘導、ツールの並列実行促進、エージェントコーディング時の一時ファイル管理、フロントエンド生成時の明示的な要望追加など、Claude 4 の特性を活かすための具体的なテクニックがまとめられている。
Claude Code が GitHub Actions に対応し、AI による自動 PR 作成・コード実装・バグ修正・レビューが可能に。@claudeを issue や PR コメントで呼び出すだけで、コード生成や修正、プロジェクト標準に沿った実装を自動化できる。CLAUDE.md によるプロジェクト固有ルールの反映や、API キー・許可コマンドのセキュアな管理、コスト最適化のための細かな設定も可能。AWS Bedrock や Google Vertex AI との連携にも対応。
Devin が DeepWiki MCP Server をリリース。Model Context Protocol(MCP)標準を使用して AI アプリケーションに DeepWiki のリポジトリドキュメントと検索機能への programmatic access を提供。3 万以上のオープンソースリポジトリに対応し、無料かつ認証不要で AI エージェントとの連携が可能。
Google が新しい実験的研究モデル「Gemini Diffusion」を発表。ランダムノイズからコヒーレントなテキストやコードを生成する SOTA(State-of-the-Art)の Text diffusion model で、画像・動画生成モデルと同様の仕組みを採用。従来の最速モデルよりも大幅に高速化を実現しながら、コーディング性能は同等レベルを維持。実験デモが公開され、ウェイトリストに登録可能。 ### 参考文献
OpenAI が Responses API の新機能を発表。MCP(Model Context Protocol)連携やツール呼び出し、プロンプトキャッシュ、ストリーミング対応など、エージェント用途や大規模アプリケーション向けの拡張が中心。API 経由での外部ツール連携や、長時間・大規模な対話セッションの効率化が可能になった。
Google が Gemma 3n preview を発表。モバイルデバイス向けに最適化されたオープンソース AI モデルで、Per-Layer Embeddings(PLE)により RAM 使用量を大幅削減。5B と 8B パラメータながら 2B と 4B 相当のメモリフットプリント(2GB・3GB)を実現。音声、テキスト、画像のマルチモーダル対応でオフライン動作が可能。Qualcomm、MediaTek、Samsung System LSI と連携して開発され、次世代 Gemini Nano の基盤技術となる。 ### 参考文献
Google が Google AI Ultra を発表。映画製作者、開発者、クリエイティブプロフェッショナル向けの最高レベル AI サブスクリプションプラン。月額$249.99(米国、初回 3 か月は 50%オフ)で、最高の使用制限と最先端モデルへのアクセスを提供。Gemini、Flow、Whisk、NotebookLM、Project Mariner、YouTube Premium、30TB ストレージを統合し、従来の Google AI Premium(現 Google AI Pro)を大幅に上回る包括的な AI サービスパッケージを実現。
Google が Google Labs で開発していた自律型コーディングエージェント「Jules」をパブリックベータで提供開始。ウェイトリスト不要で世界中で利用可能(Gemini モデル利用可能地域)。既存リポジトリと直接統合し、セキュアな Google Cloud VM 上にリポジトリをクローンして非同期でタスクを実行。プライベートコードでの学習は行われず、データは実行環境内で隔離。モデルは Gemini 2.5 Pro が利用される。 ### 参考文献
Google が Google Labs の実験的プロジェクトとして「Stitch」を発表。Gemini 2.5 Pro のマルチモーダル機能を活用し、自然言語プロンプトや画像入力から複雑な UI 設計とフロントエンドコードを数分で生成。ホワイトボードスケッチ、スクリーンショット、ワイヤーフレームから対応するデジタル UI を作成でき、複数バリエーションでの高速イテレーションも可能。生成されたデザインは Figma に直接貼り付けてコラボレーションでき、クリーンで機能的な HTML/CSS/JavaScript コードも自動出力。stitch.withgoogle.comでアクセス可能。 ### 参考文献
GitHub が Microsoft Build 2025 で GitHub Copilot Coding agent を発表。VS Code から直接アクセス可能で、GitHub Actions を活用した安全でカスタマイズ可能な開発環境を提供。GitHub Issue を Copilot に割り当てるとエージェントが作業を開始し、Draft pull request に変更を push、開発者は進捗を追跡しフィードバックを提供可能。
GitHub が Copilot を使用した Issue 作成機能をパブリックプレビューで提供開始。自然言語での記述やスクリーンショットから詳細なバグレポートを自動生成し、手動での繰り返し作業を大幅に削減。複数の Issue を一度に作成でき、リポジトリの標準に適したテンプレートの提案も行う。新しい GitHub Copilot coding agent への割り当ても可能。
OpenAI がソフトウェア開発用 AI エージェント「Codex」のリサーチプレビュー版をリリース。o3 推論モデルを最適化した codex-1 を搭載し、クラウド上の隔離された仮想コンピューター環境で動作。複数のタスクを並行処理でき、1〜30 分で機能開発やバグ修正、テスト実行を完了する。ChatGPT Pro、Enterprise、Team ユーザー向けに提供開始、Plus と Edu ユーザーへの提供も近日予定。
Gemini Advanced が GitHub との連携機能を追加。パブリック・プライベート問わず GitHub リポジトリを直接接続し、関数の生成・修正、複雑なコードの解説、コードベースに関する質問やデバッグなどが可能になった。プロンプトバーの「+」ボタンから「import code」を選び、GitHub の URL を貼り付けるだけで利用できる。 ### 参考文献
OpenAI が GPT-4.1 を ChatGPT で直接利用可能にしたと発表。 ### 参考文献
OpenAI がアジア地域でデータレジデンシーを正式に導入。これにより、アジアのユーザーはデータを地域内に保管できるようになり、法規制やプライバシー要件への対応が強化される。企業や開発者にとって、より柔軟で安心な AI 活用環境が整う。 ### 参考文献
Google DeepMind が、Gemini モデルを活用した新しいコーディングエージェント「AlphaEvolve」を発表。AlphaEvolve は大規模言語モデルの創造性と自動評価システムを組み合わせ、数学や計算機科学の複雑な問題に対して新しいアルゴリズムを自律的に発見・最適化できる。Google のデータセンターや AI トレーニング、チップ設計など実際の現場でも効率化に貢献しており、今後は学術や産業分野への応用も期待されている。
Google Sheets で Gemini を使い、ドロップダウンリストやピボットテーブル、フィルタなどの高度なアクションを素早く追加できるようになった。従来は手作業で設定していた複雑な表操作も、Gemini の提案を活用することで効率化できる。
Google が Gemini 2.5 モデルで implicit caching を導入。これにより、明示的なキャッシュ設定を行わなくても、リクエストの先頭部分が過去のリクエストと共通していれば自動的にコストが削減される。2.5 Flash は 1024 トークン、2.5 Pro は 2048 トークンからキャッシュ対象となり、usage metadata にはcachedcontenttoken_countが追加された。明示的キャッシュ API も引き続き利用できる。 ### 参考文献
GitHub Copilot で OpenAI の GPT-4.1 が新たなデフォルトモデルとして一般提供開始。従来の GPT-4o から置き換わり、コーディングや指示追従、理解力が大幅に向上した。Copilot Chat や Edits、エージェントモードで利用でき、開発現場での実用性がさらに高まっている。GPT-4o も引き続き選択可能だが、90 日後に廃止予定。 ### 参考文献
VS Code 1.100 はエージェントモードやチャット、検索、編集体験の各面で大幅な強化が行われたバージョン。AI 活用や拡張性、操作性がさらに向上している。
Anthropic が Anthropic API に Web 検索機能を追加。Claude 3.7 Sonnet、Claude 3.5 Sonnet、軽量モデルの Claude 3.5 Haiku で利用可能。API が有効化されると、ユーザーから指示に基づいて Web 検索の利用かどうかを判断し、有益だと判断した場合に Web 検索が実行される。
GitHub Copilot Premium のリクエスト制限施行日が 5 月から 2025 年 6 月 4 日に延期。
Google が Gemini 2.0 Flash による画像生成機能のプレビュー提供を開始。
Vercel が Model Context Protocol(MCP)サーバーのデプロイと運用に正式対応。Node.js や Next.js アプリから MCP サーバーを簡単に構築できる@vercel/mcp-adapterパッケージも公開され、HTTP や OAuth 対応の新しいプロトコルもサポート。Fluid compute によるコスト削減や AI 推論・エージェントワークロードの最適化も可能になった。 ### 参考文献
Google が Gemini 2.5 Pro Preview(I/O Edition)をリリース。既存ユーザーは追加手続き不要で最新版を利用可能。
OpenAI が AI コーディング支援ツール Windsurf を約 30 億ドル(約 4300 億円)で買収することに合意したと報じられた。公式からの発表はない。 ### 参考文献
ESLint v9.26.0 がリリース。ルール改善に加えて、MCP としての起動が可能に。
Claude が Integrations 機能をリリース。MCP(Model Context Protocol)を活用し、Jira や Confluence、Zapier、Cloudflare、Intercom など 10 以上のサービスと連携可能。ユーザーは自分のアプリやツールを Claude に接続でき、AI がプロジェクト履歴やタスク状況を把握し、複雑な作業を一括で支援。Research 機能を強化した Advanced Research も公開され、ウェブや Google Workspace、Integrations により接続したアプリを横断して最大 45 分間の調査・レポート作成が可能。
ChatGPT がショッピング検索機能を大幅に改良。GPT-4o および 4o-mini モデルで、ユーザーの購入意図に基づいた商品推奨機能を導入。視覚的にリッチなカルーセル形式での商品表示や、詳細な商品情報の提供が可能に。
GitHub は、Copilot Chat において組織のカスタム指示を設定できる機能をリリース。これにより、Copilot Enterprise の顧客は、組織内のすべてのユーザーに対して一貫した指示を設定することが可能。組織の設定から Copilot タブを選択し、カスタム指示を追加することで、すべてのチャットに適用される。 ### 参考文献
OpenAI は、Codex CLI を発表。これは、自然言語を用いてコードを生成し、実行するためのコマンドラインインターフェースで、開発者が効率的にプログラムを作成するのを支援する。このツールはオープンソースとして公開されている。
OpenAI は、新しい言語モデル o3 と o4-mini をリリース。これらのモデルは、コーディング、数学、科学、ビジョンにおいて優れた性能を発揮し、特に o3 は最も強力な推論モデルとして位置付けられている。
OpenAI は、最新の言語モデル GPT-4.1 とそのバリエーションである GPT-4.1 mini および GPT-4.1 nano をリリース。これらのモデルは、前バージョンに比べて大幅に性能が向上し、特に長いコンテキストの理解能力が強化されている。
GitHub Codespaces で、VSCode の Copilot エージェントモードが利用可能に。GitHub の issue から直接、エージェントモードを実行する Codespace を開くことが可能。Issue の右側に表示される「Code with Copilot Agent Mode」ボタンをクリックすることで、新しい Codespace が初期化され、Issue 本文をコンテキストとして使用し、コードベースを分析して適切なファイル変更を提案。Copilot と協力してコードを微調整し、必要に応じて修正を行うことが可能。
Mozilla.ai が Any-Agent を発表しました。これは様々なエージェントフレームワーク(LangChain、smolagents、AWS Bedrock Agents、CrewAI、AutoGen、Agno など)とコードの間の抽象化レイヤーを提供する新しいライブラリです。Any-Agent を使用することで、一度エージェントを構築すれば、異なるフレームワーク間での切り替えが容易になり、フレームワーク固有の実装の詳細に依存することなく開発が可能になります。また、open-inference によるログの正規化もサポートされており、選択したフレームワークに関係なく一貫した出力を確認できます。 ### 参考文献
OpenAI は ChatGPT のカスタマイズとメモリー機能を大幅に拡張しました。これにより、過去の会話全てを記憶し、その情報を基に応答を調整できるようになりました。以前の「Memory」機能は限られた数の情報のみを保持していましたが、新機能では「reference chat history」オプションにより、全ての過去の会話をコンテキストとして使用できます。
GitHub Copilot Chat で、GitHub の URL を貼り付けて明示的に参照する機能がサポートされるように。イシュー、ディスカッション、プルリクエストなど、GitHub での開発において重要なコンテキストを簡単に参照可能。リンクをチャットに貼り付けるだけで、Copilot が残りを処理。複数のリポジトリをまたいでプルリクエストとディスカッションを比較したり、直感的なナビゲーションで作業をスムーズに進めることが可能。 ### 参考文献
Google は Gemini 2.5 シリーズの新モデルをリリースしました。Gemini 2.5 Pro は、最も高度なコーディングモデルとして、視覚的に魅力的な Web アプリの作成やエージェントプログラミングアプリケーションの開発に優れています。また、Gemini 2.5 Flash は、低レイテンシーとコスト効率を維持しながら、思考能力を組み込んだ進化版として近日公開予定です。これらのモデルは、100 万トークンの入力コンテキストウィンドウを備え、より高度なエージェントの実現やマルチエージェントシステムの管理、コードベース全体の生成的な推論の加速を可能にします。
Google は、最新の AI モデルである Gemini 2.5 Pro と Gemini 2.5 Flash を発表。これらのモデルは、企業向けの高度な推論能力を備え、特に複雑なタスクにおいて優れた性能を発揮する。
Google は、Veo 2 と Live API のリリースを発表。これらのツールは、開発者がよりインタラクティブでリアルタイムなアプリケーションを構築するのを支援する。
Google Cloud はマルチエージェントアプリケーションの開発を容易にする Agent Development Kit(ADK)1.0 をリリースしました。ADK は、Agentspace や Google Customer Engagement Suite(CES)などの Google 製品で使用されているフレームワークをオープンソース化したものです。
GitHub Copilot のコードレビュー機能が一般提供を開始しました。コードレビューはソフトウェア開発において最も重要なプロセスの 1 つですが、手動でのレビューは時間がかかります。Copilot code review は、バグや潜在的なパフォーマンスの問題を発見し、修正案を提案する Copilot エージェントに基本的なレビューを任せることで、人間によるレビューを待つ間もコードの改善を進めることができます。これにより、コードリポジトリの保守性と品質を向上させることが可能になります。
GitHub は開発者のコーディング体験をさらに向上させるための新しい個人向けプラン「GitHub Copilot Pro+」を発表しました。このプランでは、GitHub Copilot Pro の既存機能に加えて、最新モデル(GPT-4.5 が本日利用可能)への独占アクセス、プレビュー機能への優先アクセス、5 月 5 日から利用可能になる月間 1,500 回のプレミアムリクエストが提供されます。これらは、ベースモデルを使用する際のエージェントモード、コンテキスト駆動型チャット、コード補完の無制限リクエストに加えて利用可能です。
GitHub は新しいオープンソースの公式ローカル GitHub MCP Server をリリースしました。Anthropic と協力して、彼らのリファレンスサーバーを Go で書き直し、使いやすさを向上させました。新しいサーバーは旧サーバーの機能を 100%保持しつつ、ツールの説明のカスタマイズ、コードスキャニングのサポート、そして「Show me my private repos」のような自然言語での問い合わせに対するユーザー体験を改善する新しいget_me関数を追加しています。
Visual Studio Code の 2025 年 3 月リリース(v1.99)で、GitHub Copilot に重要なアップデートが加わりました。エージェントモードのアップグレードとして、MCP サポートの追加、API キーによるモデルの使用、その他の機能が実装されました。
Google NotebookLM が「Discover sources」機能を追加しました。この機能により、ユーザーは興味のあるトピックを記述するだけで、ウェブから関連する情報源を自動的に発見し、まとめることができます。NotebookLM は数百の潜在的なウェブソースを数秒で収集し、トピックに基づいて最も関連性の高いものを選択します。最大 10 個のソース推奨が表示され、それぞれにトピックとの関連性を説明する注釈付きの要約が含まれています。
AWS が、AWS のベストプラクティスを開発ワークフローに直接組み込むための専門的な Model Context Protocol(MCP)サーバー群をオープンソースでリリースしました。Core、AWS CDK、Amazon Bedrock Knowledge Bases、Amazon Nova Canvas、Cost Analysis などのドメイン特化型 MCP サーバーを提供し、セキュリティ、コスト最適化、AWS Well-Architected のベストプラクティスを自動的に適用します。 ### 参考文献
Cursor 0.48.4 で Gemini 2.5 Pro の画像読み取りをサポートしました。
DeepSeek-V3 のアップデート版である DeepSeek-V3-0324 が公開されました。
Google が 3 月 25 日、推論モデルである Gemini 2.5(Gemini 2.5 Pro Experimental)を発表しました。 既に Google AI Studio と Gemini アプリで利用可能です。
OpenAI が 3 月 25 日、GPT-4o に組み込まれた画像生成機能「4o Image Generation」の提供を開始しました。
新しい音声認識(speech-to-text)と音声合成(text-to-speech)モデルが API で公開されました。
OpenAI がOpenAI Agents SDKで Model Context Protocol(MCP)をサポートすることを発表しました。
Model Context Protocol(MCP)の仕様が 2024-11-05 版から 2025-03-26 版へと更新されました。OAuth 2.1 に基づく認証仕様の追加、Streamable HTTP トランスポートの導入、JSON-RPC バッチングのサポート、Tool annotations の追加、オーディオデータのサポート追加、進捗通知の強化などが行われ、より安全で柔軟、そして効率的なプロトコルとなりました。 ### 参考文献
シンプルなカスタムインストラクションによって非常に短いプロンプトでも適した結果を得るられることを示しています。 またコミット生成をカスタマイズする方法や、カスタムインストラクションを分割する方法、モデルのトーンを変更する方法、 プロンプトファイルによって再利用可能なプロンプトを登録しておく方法なども解説しています。 ### 参考文献
Cursor 0.47 の Patch アップデートで、Rules に Rule Type が追加されました。
Notebook LM のポッドキャストスタイルのディスカッション音声を生成する Audio Overview 機能が Gemini App に輸入されました。
インタラクティブなプレビューを表示する Canvas 機能が Gemini に追加されました。
去年追加された Gemini 2.0 Flash のネイティブ画像生成機能が、Google AI Studio で試せるようになりました。
Google 検索に基づいてカスタマイズされた応答をする Gemini Personalization が発表されました。 今後、YouTube など他の Google サービスとも接続予定とのことです。
Gems の一般提供が開始されました。ChatGPT の GPTs に相当する機能であり、ユーザーが自分のニーズに合わせてカスタマイズしたエージェントを作成できます。
恐らく次のポストを受けて、本家 Cline が DeepSeek の V3 と R1 の無料モデルの提供を開始したかのようなニュースが流れました。
Google 検索の AI モードが試験的に公開されています。現時点での利用にはウェイトリストへの登録が必要です。
Copilot Chat の Vision input が public preview になりました。
失敗した Actions のジョブについて、Copilot に尋ねることが出来る機能の一般提供が開始された。
Gemini 2.0 が発表された。 パフォーマンスや品質などの改善に加えて、Multimodal Live API、画像生成、テキスト読み上げ機能も追加されている。
Chrome バージョン 125 以降で、Google ID でログインした上で同期を有効化し、さらに言語設定を 「英語(アメリカ)- English(US)」に設定している場合、利用できるようになったとのこと。
Google I/O 2024 にて、Chrome DevTools にエラーを Gemini に聞ける機能を搭載することが発表されました。既に米国では実験的機能として提供されているようです。
Stack Overflow and OpenAI Partner to Strengthen the World's Most Popular Large Language Models - Press release - Stack Overflow
https://github.blog/changelog/2024-01-10-whats-new-in-copilot-enterprise-beta-january-10th-update/