AI Weekly 2025-08-28 - hrdtbs' blog

OpenAIがCodexを強化、IDE拡張機能と新機能を追加#

日付：2025年8月27日

OpenAIがCodexの機能を強化し、VS CodeやCursor向けの新しい拡張機能をリリース。

IDE拡張機能の特徴：

3つのモード：
- Chatモード：エディタ内でCodexとチャットしながらコード編集
- Agentモード：自動でファイル編集やコマンド実行
- Agent（Full Access）モード：ネットワークアクセスを含む完全自律モード
推論レベル設定：Reasoning effortをMinimalからHighまで選択可能（デフォルトMedium）

クラウド連携機能：

ローカル作業からクラウドへのタスク委任
クラウドでの変更をローカルに反映
会話文脈の保持でシームレスな作業継続
クラウド環境での進捗確認と結果レビュー

GitHubコードレビューの強化：

静的解析を超えた包括的なレビュー
プルリクエストの意図確認
コードベースと依存関係の横断的推論
変更動作の検証のためのコード実行
@codex reviewでのメンション対応

Codex CLIの機能強化（バージョン0.24, 0.25）：

画像入力対応
メッセージキューイング
簡素化された承認モード
To-Doリスト機能
ウェブ検索機能

利用制限：

Plus/Teamプラン：5時間あたり30-150メッセージ
Proプラン：5時間あたり300-1,500メッセージ
ChatGPT Plus, Pro, Team, Edu, Enterpriseで利用可能

出展：ChatGPT — Release Notes #August 27, 2025 Updates to Codex (Plus/Pro)

OpenAIがGPT Realtimeを正式版を公開、最先端の音声対話モデル#

日付：2025年8月28日

OpenAIがRealtime APIをベータ版から正式版にアップデートし、新しい音声対話モデル「gpt-realtime」を発表。低遅延・高信頼性の音声認識と生成、複雑な指示の理解と正確なツール呼び出し、より自然で表現豊かな音声生成、システムメッセージと開発者プロンプトの解釈能力向上などが行われた。また画像入力の対応、MPCサポートの有効化などの改善も行われた。

性能向上：

英数字検出精度：82.8%（従来65.6%から向上）
指示順守精度：MultiChallengeベンチマーク30.5%（従来20.6%から向上）
関数呼び出し精度：ComplexFuncBench 66.5%（従来49.7%から向上）

料金：

音声入力トークン：100万件あたり32ドル
キャッシュ済み入力：0.4ドル
音声出力トークン：100万件あたり64ドル
従来モデル比20%安

出展：OpenAI Developers - X

GoogleがStaxを公開、LLM評価を効率化するツール#

日付：2025年8月27日

*現在、日本では利用不可。

GoogleがStaxを公開。LLM評価を効率化する実験的な開発者ツールで、“vibe testing”から脱却し、本格的な評価を可能にする。

Staxでは事前構築されたAutorater（LLM-as-a-judge）が提供されており、データセットをアップロードすれば、すぐに利用出来る。カスタムAutoraterの構築も可能。

このツールにより、LLM搭載アプリケーションの品質向上とデータ駆動型の意思決定が可能になる。

出展：Stop “vibe testing” your LLMs. It’s time for real evals. - Google Developers Blog

GoogleがGemini 2.5 Flash Imageを公開、高速画像生成に対応#

日付：2025年8月27日

GoogleがGemini 2.5 Flash Imageを公開。このモデルは発表以前からnano-bananaとして話題になっていた強力な一貫性の維持が可能な画像生成・編集モデル。Geminiアプリの他、APIでの利用も可能。

Gemini 2.5 Flash Imageのベストプラクティスについての記事も公開されている。

個人的に試した感想として、他の画像生成・編集モデルとは以下の点で大きく異なるように感じた。

一貫性の維持が非常に強力であり、画像編集に利用する場合は詳細に記述する必要がある。
画像の位置を指定した編集が可能。
入力画像のアスペクト比が維持される。アスペクト比を指定した生成が可能。
画質をコントロール可能。指定しない場合、画質が低くなるケースが多い。

また、ComfyUIが即日nano-bananaをネイティブサポートした。

出展： Introducing Gemini 2.5 Flash Image - Google Developers Blog

AnthropicがClaude for Chromeをパイロット公開#

日付：2025年8月26日

AnthropicがClaude for Chromeをテスト公開。Maxプランユーザーに段階的に展開される。ブラウザのサイドパネルでClaudeが直接動作し、ユーザーの指示に従ってボタンクリックやフォーム入力といったウェブサイトを操作することができる。

AI Agentによるブラウザ操作については以前からプロンプトインジェクション攻撃による懸念が指摘されており、Anthropicもそのリスクを考慮し、サイト別パーミッション管理や高リスクアクションの確認要求、自律的な操作のデフォルト無効化などのセキュリティ対策を行っている。また今回のテスト公開を通じて、安全対策を強化する計画。

出展：

xAがGrok Code Fast 1をリリース、期間限定無料公開#

日付：2025年8月28日

xAIが「Grok Code Fast 1」をリリース。コーディング性能に優れた高速推論モデルで、日常業務向けに最適化されている。

リリースを記念して9月10日正午（PT）まで、GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurfで無料で利用出来る。

主な特徴：

TypeScript, Python, Java, Rust, C++, Goに精通
ゼロからプロジェクト構築が可能
人間評価に基づく使いやすさ重視

コストパフォーマンス：

入力トークン100万件：0.2ドル
出力トークン100万件：1.50ドル
キャッシュ済み入力：0.02ドル
1秒当たりのトークン数と出力価格で主要モデルを上回る

開発背景：

ゼロから構築した新アーキテクチャ
プログラミング関連コンテンツ豊富な学習用コーパス
実際のプルリクエスト反映した高品質データセット使用

実際に利用した個人的な感想としては、推論モデルでありながら動作は非常に早く、他のモデルがカスタム命令を使用して行うような挙動を自然に行う。確かに日常業務向けに最適化された使いやすさ重視という印象を受けた。

出展：

FFmpeg 8.0がWhisperフィルターで自動音声認識に対応#

日付：2025年8月22日

FFmpeg 8.0で、Whisperフィルターが新しく追加された。これにより、FFmpeg単体でOpenAIのWhisperモデルを使用した自動音声認識が可能になった

1
ffmpeg -i input.mp4 -vf "whisper=language=ja" -f srt output.srt

音声認識と同時に動画処理を行う例：

1
ffmpeg -i input.mp4 -vf "whisper=language=en" -c:v libx264 -c:a aac output.mp4

これまで音声認識には別途Whisperの実行環境が必要だったが、FFmpeg単体で処理できるようになったことで、動画編集ワークフローでの自動字幕生成が容易になった。

出展：August 22nd, 2025, FFmpeg 8.0 “Huffman”

GitHub Copilot Coding AgentがAGENTS.mdをサポート#

日付：2025年8月28日

Copilot Coding Agentが、custom instructionを形式としてAGENTS.mdをサポートするようになった。

現在、Copilot Coding Agentは次の形式をサポートしている。

.github/copilot-instructions.md
github/instructions/**.instructions.md
CLAUDE.md
GEMINI.md
AGENTS.md

出展：Copilot coding agent now supports AGENTS.md custom instructions - GitHub Changelog

GitHub Copilotのコード補完に使用されるモデルが更新#

日付：2025年8月27日

GitHub Copilotコード補完で、GPT-4.1 Copilot モデルが使用されるようになった。全てのプランのユーザーに自動的に適用される。

GPT-4.1 Copilot モデルは、GPT-4.1を追加のトレーニングデータでナレッジカットオフを拡張し、強化学習によって改良されたモデル。

出展：Copilot code completion now uses the GPT-4.1 Copilot model - GitHub Changelog

NotebookLMのビデオ解説が日本語を含む80言語に対応#

日付：2025年8月26日

NotebookLMのビデオ解説機能が日本語を含む80言語で利用可能になった。また、音声解説機能が向上し英語と同様の品質を英語以外の言語でも得られるようになった。

出展：NotebookLM のビデオ解説が日本語を含む 80 言語に対応