AI Weekly 2025-03-27 - hrdtbs' blog

Cloudflare が AI クローラーをブロックする AI Labyrinth を発表#

Cloudflare が AI クローラーをブロックする AI Labyrinth を発表しました。

https://blog.cloudflare.com/ai-labyrinth/

Cloudflare の AI Labyrinth は、AI によって生成されたコンテンツを使用して、クローラーを偽のリンクされたページに誘導することで、不正な AI クローラーのリソースを浪費させることを目的としています。

生成されたページには、SEO に悪影響を与える可能性を避けるために、検索エンジンのインデックス登録を防ぐための適切なメタディレクティブが含まれるとのことです。

Open AI が新しい音声認識/音声合成モデルを公開#

新しい音声認識（speech-to-text）と音声合成（text-to-speech）モデルが API で公開されました。

https://openai.com/index/introducing-our-next-generation-audio-models/

新しい音声認識モデル（gpt-4o-transcribe、gpt-4o-mini-transcribe）は、既存の Whisper モデルと比較して精度と信頼性が向上し、特にアクセント、騒音環境、さまざまな話速といった難しい状況でも優れた性能を発揮します。また FLEURS などのベンチマークで低い Word Error Rate (WER)を達成し、多言語での認識精度も向上しています。

新しい音声合成モデル（gpt-4o-mini-tts）では、テキストの内容だけでなく話し方（例えば、「同情的なカスタマーサービス担当者のように話す」）を指示できるようになり、よりカスタマイズされた表現豊かな音声エージェントを開発できます。ただし、これらの音声合成モデルは、あらかじめ設定された人工的な音声に限られます。

Bolt.new が Figma からのインポートをサポート#

Bolt.new が Figma からデザインをインポートし、アプリを作成する機能をサポートしました。

https://x.com/boltdotnew/status/1900197121829331158

Figma デザインのコードへの変換にはAnimaが利用されており、Anima と提携することで、この機能を実現したとのことです。

DeepSeek-V3-0324 が公開#

DeepSeek-V3 のアップデート版である DeepSeek-V3-0324 が公開されました。

https://simonwillison.net/2025/Mar/24/deepseek/

このモデルは、ライセンスが MIT で提供されています。また性能は非推論モデルの中では高い性能を見せています。Artificial Analysisによれば、コーディングのベンチマークで Cloude 3.7 Sonnet と同じスコアを記録しています。

GPT-4o に画像生成機能が追加#

OpenAI が 3 月 25 日、GPT-4o に組み込まれた画像生成機能「4o Image Generation」の提供を開始しました。

https://openai.com/index/introducing-4o-image-generation/

DALL-E と比較してテキストへの応答能力が飛躍的に向上しており、次のことが可能です。

画像内のテキスト指定が可能
一貫性を保った複数回の画像生成（マルチターン生成）
アップロードされた画像の文脈を理解し、それを反映した画像生成
GPT-4o の知識を活用した画像生成
より写実的で多様なスタイルの画像生成

同様の画像生成は今までも可能な手段がありましたが、「4o Image Generation」は既存の手法と比べて遥かに手軽に、実務において利用しやすい画像を手軽に生成できる点で大きな優位性があります。これは実際、発表を受けて多くのユーザーが一貫性やテキスト指定を有効活用した画像を SNS などで公開していることから明らかだと思います。

GPT-4o が利用できる状態になっていれば次の URL から試すことができます。 API での利用は数週間以内に提供予定とのことです。

https://chatgpt.com/?model=gpt-4o

Gemini 2.5 が公開#

Google が 3 月 25 日、推論モデルである Gemini 2.5（Gemini 2.5 Pro Experimental）を発表しました。既に Google AI Studio と Gemini アプリで利用可能です。

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

多くの数学や科学、コーディング関連のベンチーマークでトップの性能を示しています。

https://artificialanalysis.ai/#:~:text=we%20run%20them.-,Intelligence%20Evaluations,-9%20of%209

次の URL から試すことができます。

https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

Devin 1.5 がリリース#

3 月 25 日、Devin 1.5 がリリースされました。

https://docs.devin.ai/release-notes/overview#march-25%2C-2025

主な新機能は以下の通りです。

Devin IDE: Devin がリポジトリが読み込まれたインタラクティブな VSCode 環境で動作するように。リアルタイムでの編集確認や、IDE ツールやショートカットを使用した直接的な編集が可能。
インタラクティブプランナー: セッション開始時に数秒で関連ファイルや調査結果、初期プランを提示。複雑なタスクでは「Wait for my approval」オプションでフィードバックを待機。
Devin Search: コードベースに関する質問に素早く回答する新しいツール。コードの場所特定やコミット履歴の追跡などが可能。
- Devin’s Wiki: Devin Search がコードベースをより深く理解するために使用されている。アーキテクチャ図、ソースへのリンクなどが含まれており、ユーザーにとっても有益な可能性がある。

Cursor 0.48 がリリース#

Cursor 0.48 をリリースされました。

https://www.cursor.com/ja/changelog#:~:text=updates%20and%20improvements-,0.48.x,-Chat%20tabs%2C%20Custom

主な新機能は以下の通りです。

チャットタブ: 並行して複数の会話を進められるように。新しいタブ（⌘N）で別のワークフローを開始可能。
カスタムモード（ベータ）: ワークフローに合わせてツールとプロンプトを組み合わせた新しいモードを作成できる機能の追加。
サウンド通知（ベータ）: チャットがレビュー準備完了時にサウンドを再生できる機能の追加。
使用量ベースのコスト表示: 使用量ベースのモデルでチャットごとのコストと内訳を表示できるように。チャットメッセージの入力トークン数も表示可能。