AI Weekly 2025-07-31 - hrdtbs' blog

Gemini CLIでカスタムスラッシュコマンドが利用可能に#

日付：2025年7月30日

Gemini CLIにカスタムスラッシュコマンド機能が追加。ユーザーは再利用可能なプロンプトを定義し、Gemini CLIとの対話を効率化できる。コマンドはTOMLファイルベースで定義され、引数の受け渡しやシェルコマンドの直接実行もサポートする。

TOMLファイルによる定義: カスタムコマンドは.tomlファイルで構造的に定義される。必須項目はpromptのみ。
引数とシェルコマンド: {{args}}で引数を渡し、!{...}でシェルコマンドをプロンプト内で直接実行できる。
スコープと名前空間: コマンドはユーザーごと（~/.gemini/commands/）またはプロジェクトごと（.gemini/commands/）に定義可能。サブディレクトリを作成することで、コマンドを名前空間でグループ化できる。
ユースケース: GitHubのプルリクエストレビューの自動化、タスクの戦略的計画の作成、他のツールとの連携など、反復的なタスクの効率化に利用できる。
MCP統合: Model Context Protocol (MCP) プロンプトをスラッシュコマンドとして利用することも可能。

出展：Gemini CLI: Custom slash commands

Gemini 2.5 DeepThink の発表#

日付：2025年8月1日

GoogleがGemini 2.5 DeepThinkを発表。複雑な問題に対し、複数のアイデアを同時に生成・評価・修正して、より創造的で思慮深い回答を導き出す「並列思考」技術を搭載。

並列思考: 複数の推論パスを同時に探求し、仮説を組み合わせることで、質の高い解決策を生成。
拡張された推論時間: より深く考える時間を与え、複雑な問題に対する直感的な解決能力を向上。
新しい強化学習技術: 拡張された推論パスの活用を学習し、時間と共により優れた問題解決能力を獲得。
最先端のパフォーマンス: 2025年の国際数学オリンピック（IMO）で金メダルを獲得したモデルのバリエーションであり、コーディング、科学、推論などのベンチマークで高い性能を達成。
安全性の向上: Gemini 2.5 Proと比較して、コンテンツの安全性とトーンの客観性が向上。

Google AI Ultra加入者は2025年8月1日からGeminiアプリで利用可能。数週間以内に、Gemini APIを通じても提供予定。

出展：Introducing Gemini 2.5 DeepThink

Anthropic、Claude Pro/Maxに週間レート制限を導入#

日付：2025年7月29日

Anthropicは、Claude ProおよびMaxプランに新しい週間レート制限を導入すると発表。この変更は2025年8月28日から適用される。現在の利用状況に基づくと、この制限が影響を及ぼすのは加入者の5%未満と推定される。

この措置の背景には、Claude Codeへの前例のない需要の増加がある。特にMaxプランにおいて、一部のユーザーが24時間365日サービスを連続稼働させるケースや、アカウントの共有・再販といった利用規約違反が報告されている。これらの極端な利用例は、全ユーザー向けのキャパシティに影響を与えていた。例えば、あるユーザーは月額$200のプランで数万ドル相当のモデル利用量を消費した。

新しい週間制限の導入に伴い、Maxプランのユーザーは、制限を超えた場合に標準のAPIレートで追加の利用量を購入できるオプションが提供される予定。

出展：Anthropic on X

Veo 3 Fastの導入とimage-to-video機能の追加#

日付：2025年7月31日

Googleの動画生成モデルVeo 3に、速度と価格を最適化した新モデル「Veo 3 Fast」が追加。あわせて、既存のVeo 3とVeo 3 Fastの両方で、静止画から動画を生成するimage-to-video機能が利用可能になった。両モデルと新機能は、Gemini APIを通じて有料プレビューとして提供される。

Veo 3 Fast
- 速度とコスト効率を重視したモデルで、高品質な動画を効率的に生成。
- 価格は音声付きで$0.40/秒。
- プログラマティック広告、ラピッドプロトタイピング、SNSコンテンツの大規模生成などのユースケースを想定。
Image-to-Video 機能
- Veo 3とVeo 3 Fastで利用可能。
- 入力画像とテキストプロンプトを組み合わせ、一貫性を保った動的な動画シーケンスを生成。
- 価格はtext-to-videoの出力と同額。Veo 3の場合は音声付きで$0.75/秒。

出展：Veo 3 Fast and new image-to-video capabilities

LangExtract: Geminiを活用した情報抽出ライブラリ#

日付：2025年7月30日

GoogleはLangExtractを発表。これは、非構造化テキストから構造化情報を抽出するための新しいオープンソースPythonライブラリ。GeminiのようなLLMを利用し、ユーザーのカスタム指示に基づいて、柔軟性と追跡可能性を両立した情報抽出を実現する。医療レポートや法的文書など、テキストが多用される分野での活用が期待される。

正確なソースグラウンディング: 抽出された全てのエンティティは、ソーステキスト内の正確な文字オフセットにマッピングされ、追跡可能性を確保。
信頼性の高い構造化出力: 少数の例（few-shot）を提供することで、GeminiモデルなどのControlled Generation機能を活用し、一貫した構造化出力を保証。
長文コンテキストの最適化: チャンキング戦略、並列処理、複数回の抽出パスを用いて、長文からの情報検索を効率化。
インタラクティブな可視化: 抽出エンティティを文脈の中でレビューできる、自己完結型のインタラクティブHTMLを生成。
柔軟なLLMバックエンド: GoogleのGeminiファミリーやオープンソースのオンデバイスモデルなど、様々なLLMをサポート。
ドメイン横断的な柔軟性: LLMをファインチューニングすることなく、少数の例を示すだけで、あらゆるドメインの情報抽出タスクを定義可能。
LLMの世界知識の活用: モデルが持つ世界知識を利用して、抽出された情報を補足することが可能。

出展：Introducing LangExtract: A Gemini powered information extraction library

リポジトリ：google/langextract

LangExtractの利用例#

以下は、シェイクスピアの戯曲の一節から登場人物、感情、関係性を抽出するコード例。

まず、ライブラリをインストールする。

1
pip install langextract

次に、抽出タスクを定義し、実行する。明確なプロンプトと高品質な few-shot の例を提供することで、モデルの出力をガイドする。

1
import textwrap
2
import langextract as lx
3

4
# 1. 簡潔なプロンプトを定義
5
prompt = textwrap.dedent("""\
6
登場人物、感情、関係性を出現順に抽出してください。
7
抽出には正確なテキストを使用し、言い換えやエンティティの重複は避けてください。
8
各エンティティには文脈を追加するための意味のある属性を提供してください。""")
9

10
# 2. モデルをガイドするための高品質な例を提供
11
examples = [
12
    lx.data.ExampleData(
13
        text=(
14
            "ROMEO. But soft! What light through yonder window breaks? It is"
15
            " the east, and Juliet is the sun."
16
        ),
17
        extractions=[
18
            lx.data.Extraction(
19
                extraction_class="character",
20
                extraction_text="ROMEO",
21
                attributes={"emotional_state": "wonder"},
22
            ),
23
            lx.data.Extraction(
24
                extraction_class="emotion",
25
                extraction_text="But soft!",
26
                attributes={"feeling": "gentle awe"},
27
            ),
28
            lx.data.Extraction(
29
                extraction_class="relationship",
30
                extraction_text="Juliet is the sun",
31
                attributes={"type": "metaphor"},
32
            ),
33
        ],
34
    )]
35

36
# 3. 入力テキストに対して抽出を実行
37
input_text = (
38
    "Lady Juliet gazed longingly at the stars, her heart aching for Romeo")
39
result = lx.extract(
40
    text_or_documents=input_text,
41
    prompt_description=prompt,
42
    examples=examples,
43
    model_id="gemini-2.5-pro",)

抽出結果はJSONLファイルに保存し、インタラクティブなHTMLファイルとして可視化できる。

1
# 結果をJSONLファイルに保存
2
lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl")
3

4
# ファイルからインタラクティブな可視化を生成
5
html_content = lx.visualize("extraction_results.jsonl")
6
with open("visualization.html", "w") as f:
7
    f.write(html_content)

Devin MCP Marketplace とワークフロー機能強化#

日付：2025 年 7 月 28 日

Devin に MCP (Model Context Protocol) Marketplaceを導入。専用マーケットプレイスで数千のツールと統合機能を提供し、Linear、Notion、AWS サービスなどにワンクリックで接続可能。

MCP 設定用のインライン秘密情報管理機能を追加。$SECRETNAME 構文による安全な認証情報管理を実現。Slack スレッドモード設定により、Slack ワークスペース統合時の応答方法をコントロール可能。開発者ツールとの統合体験とワークフロー改善に焦点。

出展：Devin Release Notes - July 28, 2025

Cursor v1.3 リリース、ネイティブターミナルの利用#

日付：2025年7月29日

AIコードエディタ Cursor が v1.3 をリリース。AIエージェントとのインタラクション強化と全体的なパフォーマンス向上に焦点を当てたアップデート。

ネイティブターミナルの利用: AIエージェントがユーザーのネイティブターミナルを使用可能に。エージェントのコマンドを監視したり、ユーザーが直接制御を引き継ぐことが可能。
コンテキスト使用量の表示: チャット会話の最後にコンテキストウィンドウの使用量を表示し、透明性を向上。
パフォーマンス改善:
- リンターエラーの遅延読み込みにより、エージェントによる編集が高速化。
- 「検索と置換」および「適用」編集の遅延を削減。
操作性の向上:
- ディレクトリを右クリックしてチャットに送信する機能を追加。
- ノートブックのチェックポイント機能。
セキュリティ強化: 自動実行と拡張機能のための許可リストを使用し、セキュリティを強化。

出展：Cursor Changelog 1.3

Hugging Face、新しいCLIツール「hf」を発表#

日付：2025年8月4日

Hugging Faceが、コマンドラインインターフェース（CLI）ツールを刷新し、huggingface-cliからhfへと名称を短縮。開発者の利便性向上を目的としたアップデート。

コマンド構造の改善: hf <resource> <action> という一貫した構文を採用し、docker のような一般的なCLIツールに近い直感的な操作性を実現。
新コマンド hf jobs: Hugging Faceのインフラ上で直接スクリプトやDockerイメージを実行できる新機能 hf jobs を追加。
下位互換性: 従来の huggingface-cli コマンドも引き続き利用可能で、新しいコマンドへの移行を促す警告が表示される。

出展：Introducing the new hf command-line tool

Vercel、AI SDK 5をリリース#

日付：2025年7月31日

Vercelは、TypeScript/JavaScript向けのオープンソースAIツールキットであるAI SDKのメジャーアップデート、バージョン5をリリース。今回のアップデートでは、フルスタックでのエンドツーエンドな型安全性を実現するチャット機能の再設計と、エージェントループを精密に制御するための新しいプリミティブの導入に焦点が当てられている。

再設計されたチャット機能: UIの状態を管理するUIMessageと、モデルに送信するためのModelMessageを明確に分離し、チャット履歴の永続化を簡素化。また、任意の型安全なデータをストリーミングするData partsや、型安全なツール呼び出しなど、UI統合が全面的に刷新された。
エージェントループ制御:
- stopWhen: ツール呼び出しループを停止する条件（ステップ数や特定のツール呼び出しなど）を定義可能。
- prepareStep: ループの各ステップが実行される前に、使用するモデル、メッセージ、ツールなどを動的に調整できる。
音声生成と文字起こし: OpenAI、ElevenLabs、DeepGramなどのプロバイダに対応した、統一的なAPIによる音声生成（Text-to-Speech）と文字起こし（Speech-to-Text）の実験的サポートを追加。
ツールの改善: 開発時に型が不明なツールを扱うためのdynamicTool、プロバイダ側で実行されるツール（OpenAIのWeb検索など）のネイティブサポート、ツール呼び出しのライフサイクルを詳細に制御するフック機能が追加された。
グローバルプロバイダ: 'openai/gpt-4o'のようなモデルID文字列だけでモデルを指定可能になり、プロバイダの切り替えを簡素化。デフォルトではVercel AI Gatewayが使用される。

NotebookLM、ビデオ概要とStudioパネルのアップグレードを発表#

日付：2025年7月31日

パーソナライズされたAIリサーチアシスタントであるNotebookLMが、新機能として「ビデオ概要（Video Overviews）」の生成と、「Studioパネル」のアップグレードを発表。複雑なトピックの理解やコンテンツ作成を支援する機能が強化された。

ビデオ概要 (Video Overviews): ナレーション付きのスライド形式で情報を提示する新しい出力タイプ。AIがソースドキュメント内の画像、図、引用を取り込みながら新しいビジュアルを生成する。ユーザーはトピック、学習目標、対象読者を指定して概要のカスタマイズが可能。
Studioパネルのアップグレード: パネルが再設計され、1つのノートブック内に同じ種類の出力（音声概要やマインドマップなど）を複数作成・保存できるようになった。これにより、言語や対象者ごとに異なるバージョンのコンテンツを管理可能になる。また、新しいインターフェースはマルチタスクに対応し、音声概要を聴きながらマインドマップを閲覧するなどの操作が可能。

出展：NotebookLM adds Video Overviews and Studio upgrades

Ollama、GUI版をリリース#

日付：2025年7月31日

Ollamaが、macOSおよびWindows向けに新しいデスクトップアプリをリリース。アプリ内で直接モデルのダウンロードやチャットが可能になり、ファイルや画像との対話機能も追加された。

ファイルとの対話: テキストやPDFファイルをドラッグ＆ドロップで読み込ませ、内容についての対話が可能。大規模なドキュメントを扱う際は、設定でコンテキスト長を増やすことができる。
マルチモーダル対応: Ollamaの新しいマルチモーダルエンジンを基盤としており、Gemma 3のような対応モデルに画像を送信して対話できる。
コードファイルの処理: コードファイルを読み込ませ、内容の理解やドキュメント作成などのタスクを実行できる。

なお、従来のコマンドラインインターフェース（CLI）を希望するユーザー向けに、スタンドアロン版のダウンロードも引き続きGitHubで提供される。

出展：New Ollama App

Copilot Chat、リポジトリ管理スキルを強化#

日付：2025年7月31日

github.com上のCopilot Chatに、新しいリポジトリ管理機能が追加。チャットインターフェース内で直接、リポジトリ関連のさまざまなタスクを実行できるようになり、アイデアからデプロイまでのワークフローの効率化を目指す。

ファイル操作: コードやREADMEなど、プロジェクトファイルへの変更内容を自然言語で記述するだけで、ファイルの作成、更新、プッシュが可能。
ブランチ作成: 特定のissueに対応する機能ブランチや実験用ブランチの作成を依頼できる。
プルリクエストのマージ: オープンなプルリクエストのマージをCopilot Chatに依頼できる。

出展：Copilot Chat unlocks new repository management skills

Copilot Coding Agentがプルリクエストのタイトルと本文を最新の状態に維持#

日付：2025年7月30日

Copilot Coding Agentが、フィードバックに対応する過程でプルリクエストのタイトルと本文を自動的に更新するようになった。これにより、ユーザーは加えられた変更の概要を即座に確認できる。

出展：Copilot coding agent keeps pull request titles and bodies up to date