Episodes

  • 私立ずんだもん女学園放送部 podcast 20260306
    Mar 5 2026
    youtube版(スライド付き) 関連リンク skill-creatorから学ぶSkill設計と、Orchestration Skillの作り方 本記事は、Anthropicが提唱する「Agent Skills(エージェント・スキル)」の設計思想と、そのベストプラクティスを解説したドキュメントです。特に、スキル作成を支援するメタスキル「skill-creator」の構造を分析し、複雑なタスクをこなす「オーケストレーション型スキル」の作り方を、新人エンジニアにも分かりやすく提示しています。 1. Agent Skillsの基本と「段階的開示」 Agent Skillsとは、AIエージェントに特定のワークフローや知識を教える命令セットです。設計の核心は「Progressive Disclosure(段階的開示)」にあります。 AIの記憶領域(コンテキストウィンドウ)は限られた「公共財」であるため、最初から全ての情報を読み込ませるのではなく、必要に応じて3段階で情報をロードします。 Level 1: スキル名と説明(常に読み込む。トリガー判定用)Level 2: メインの指示(スキル発動時に読み込む)Level 3: スクリプトや参照資料(実行時に必要になったら読み込む) 2. 失敗しないスキル設計の7つのベストプラクティス 「skill-creator」の構造から、以下の汎用的な設計パターンが学べます。 指示の委譲: メインの指示書(SKILL.md)は司令塔に徹し、専門的な処理はサブエージェントに任せる。スクリプトの活用: ループや計算、ファイル操作など、AIが苦手な「確定的処理」はプログラム(Python等)に外出しする。スキーマ契約: AIとプログラムの間でやり取りするJSON形式を厳密に定義し、連携ミスを防ぐ。Why-driven設計: 「絶対〜しろ」と命令するだけでなく「なぜそれが必要か(理由)」を説明することで、AIの柔軟な対応を引き出す。Description(説明文)の最適化: 説明文が悪いとスキルが起動すらしないため、トリガー条件を具体的に記述する。チャット外での連携: 大量のデータ評価など、チャットUIでは難しい作業は専用のHTMLビューアなどを生成して行う。移植性の確保: 実行環境の制約(並列処理ができるか等)に応じて、自動で処理を切り替える工夫をする。 3. 2つのオーケストレーション戦略 複雑な処理をまとめる際、記事では2つのアプローチを比較しています。 Sub-agent型: 1つの親スキルが、複数の「子のAI」を生成して並列で動かす。評価や分析を同時に行いたい場合に有効。Skill Chain型: 独立した小さなスキルを「数珠繋ぎ」にしてパイプラインを作る。調査、実行、レポート作成など、手順が直列で決まっている場合に適している。 結論 これからのスキル開発は、単なる「プロンプトの束」ではなく、制御フロー、専門ロジック、データ契約、UIを持つ「小さなソフトウェア」として設計することが求められます。この構造化を意識することで、より信頼性が高く、メンテナンスしやすいAIエージェントを構築できるようになります。 引用元: https://nyosegawa.github.io/posts/skill-creator-and-orchestration-skill/ MCPはなぜCLIに負けたのか —— 経緯と構造を整理する 2024年にAnthropicが発表したMCP(Model Context Protocol)は、当初「AIとツールの架け橋」として業界を席巻しましたが、2026年現在ではCLI(コマンドラインインターフェース)に対してその優位性を失いつつあります。本記事は、なぜMCPが短期間でCLIに追い抜かれたのか、その構造的な背景を分析しています。 【MCP誕生の背景:モデルの「能力不足」】 2024年11月時点のAIモデルは、ツールの入出力を自力で解釈する能力が不安定でした。そのため、MCPはモデルとツールの間にJSON-RPCベースの仲介層を置き、構造化されたデータ(スキーマ)で「何ができるか」を明示的に教える「補助輪」としての役割を果たしました。 【モデルの進化が前提を壊した】 2025年以降、推論能力が飛躍的に向上した新世代モデル(Opus 4.6等)が登場しました。これらのモデルは、manページやヘルプテキストを読むだけで適切なコマンドを組み立て、エラーが発生しても自律的に修正できる能力を獲得しました。結果として、モデル側の進化が「構造化された仲介層」というMCPの必要性を解消してしまいました。 【トークン効率と運用コストの壁】 実運用におけるCLIとの比較...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260305
    Mar 4 2026
    youtube版(スライド付き) 関連リンク LangChain Skills LangChain社は、AIコーディングエージェントがLangChainエコシステム(LangChain、LangGraph、Deep Agents)をより正確に扱えるようにするための専門知識パッケージ「Skills(スキル)」の第一弾をリリースしました。 近年の開発現場では「Claude Code」のようなAIエージェントがコードを生成・修正する場面が増えていますが、今回リリースされた「Skills」を導入することで、LangChainに関連するタスクの成功率が従来の29%から95%へと劇的に向上することが確認されています。 「Skills」とは何か? 新人エンジニアの方にとって、AIエージェントは非常に頼もしい存在ですが、エージェントに「あれもこれも」と大量のツールや指示を与えすぎると、かえって混乱して性能が落ちてしまうという課題(ツールの過負荷)がありました。 「Skills」は、この問題を解決するために設計されています。 必要な時だけ読み込む: 「動的ロード(Progressive Disclosure)」という仕組みを採用しており、エージェントは現在取り組んでいるタスクに関係があるスキルだけを、その都度取り出して使用します。ポータブルな形式: Markdownファイルやスクリプトで構成されており、特定のプラットフォームに依存せず、スキル機能をサポートする様々なエージェントで共有・利用が可能です。 提供される主なスキル 現在、GitHubの「langchain-skills」リポジトリでは、大きく分けて3つのカテゴリーで11個のスキルが提供されています。 LangChain: クラシックなエージェント構成やツール呼び出しのパターンに関するガイド。LangGraph: 状態管理や「Human-in-the-loop(人間の介在)」、実行の永続化など、高度なエージェント制御に関するガイド。DeepAgents: ファイルシステム操作や事前定義されたミドルウェアを活用するためのガイド。 まとめと今後の展望 今回のリリースにより、AIエージェントは「LangChainをどう使えばいいか」というドキュメントを読み解く段階を超え、最初から「使い方のコツ」を習得した状態で開発をサポートしてくれるようになります。 今後はLangSmith(評価・運用プラットフォーム)向けのスキル追加も予定されており、エージェントによる開発の自動化がさらに加速していくことが期待されます。エンジニアにとっては、エージェントのセットアップがより簡単になり、より本質的な設計やロジック構築に集中できる環境が整いつつあります。 引用元: https://blog.langchain.com/langchain-skills/ #3|AIが自走し、人間は管制する — Pilot-Tower開発の設計思想 本記事は、AI駆動開発における人間とAIの役割分担を「航空管制」になぞらえた次世代の開発手法「Pilot-Tower(P&T)開発」の設計思想を解説しています。 従来のAI活用(Phase 2)では、人間が運転席に座りAIに個別の指示を出していましたが、これではAIの稼働時間が人間の活動時間に縛られるという限界がありました。P&T開発(Phase 3)では、AIを「パイロット(操縦士)」、人間を「タワー(管制塔)」と定義し、AIが自律的に計画・実装・検証を進め、人間は要所での判断のみを行う構造への転換を目指します。 【設計の核心:上流と下流の境界を溶かす】 「仕様を固めてから実装する」という直列なプロセスではなく、要件定義・設計・実装を同時並行で回す「探索的ループ」を重視しています。AIは以下の3つのモードを使い分け、不確実性を段階的に排除します。 plan-refine: 対話による計画の詳細化。plan-spike: 仮実装による技術検証。コードは捨てるが知見を蓄積する。plan-execute: 検証済みの計画に基づく本実装。 これらを通じて、AI自身が読み書きし、自律判断の根拠とする「生きたドキュメント(plan.md)」を育てていきます。 【自走と統制を両立する3つの仕掛け】 AIに自律性を与えつつ、制御不能になるのを防ぐための仕組みが導入されています。 ループ構造: AIが計画・実行・ログ記録・課題抽出を自律的に繰り返すサイクル。Decision Required (DR): AIが判断に迷う箇所で停止し、人間にA/B案と推奨案を提示する仕組み。人間は「選択」するだけで管制が可能です。ガードレール: セキュリティや決済など、AIが独断で触...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260304
    Mar 3 2026
    youtube版(スライド付き) 関連リンク GPT-5.3 Instant: Smoother, more useful everyday conversations OpenAIは2026年3月3日、ChatGPTで最も利用されているモデルの最新アップデート版「GPT-5.3 Instant」をリリースしました。このモデルは、ベンチマークの数値だけでは測れない「日常的な対話の質」に焦点を当てており、より自然で、かつ的確な回答が可能になっています。新人エンジニアの方にとっても、AIとの対話やプログラミング補助において、よりストレスの少ない体験が期待できる内容です。 主な改善点は以下の4点です。 過剰な拒否や注釈(説教)の削減 従来のモデル(GPT-5.2 Instant)は、安全性を考慮しすぎるあまり、単純な質問に対しても長い警告文や道徳的な前置きを付け加える傾向がありました。5.3ではこれが大幅に改善され、ユーザーの意図を汲み取って直接的な回答を返すよう調整されています。これにより、対話のテンポが損なわれなくなりました。 Web検索情報の統合精度の向上 Web検索を利用した回答の際、単に検索結果を要約するだけでなく、モデルが持つ既存の知識と検索情報をより高度に融合させることができるようになりました。最新のニュースを既存の文脈に当てはめて解説する能力が向上し、情報の優先順位付けも洗練されています。 より自然で簡潔な対話スタイル 「深呼吸して」「落ち着いて」といった過剰な配慮や、不自然な決めつけが減少しました。よりフォーカスされた自然なトーンになり、設定から温かみや熱意の調整も可能になっています。ただし、日本語や韓国語においては、まだ表現が硬かったり直訳調になったりする課題が残っており、今後の改善課題とされています。 ハルシネーション(事実誤認)の低減 内部評価において、医療や法律といった高リスク領域でのハルシネーション率が、Web利用時で26.8%、内部知識のみで19.7%減少しました。ユーザーからのフィードバックに基づいた評価でも約10〜22%の精度向上が確認されており、情報の信頼性が高まっています。 エンジニア向けの提供情報 APIでは既に「gpt-5.3-chat-latest」として利用可能です。今後「Thinking」や「Pro」モデルへのアップデートも予定されています。なお、旧モデルであるGPT-5.2 Instantは、2026年6月3日までレガシーモデルとして提供された後に廃止される予定です。 今回のアップデートは、AIを単なる「検索機」や「ツール」としてではなく、より「意図を理解してくれるパートナー」へと進化させる重要なステップと言えます。 引用元: https://openai.com/index/gpt-5-3-instant Gemini 3.1 Flash-Lite: Built for intelligence at scale Google DeepMindは、Gemini 3シリーズにおいて最も高速かつコスト効率に優れた新モデル「Gemini 3.1 Flash-Lite」をプレビュー公開しました。このモデルは、大量のデータを処理する必要がある開発者向けに設計されており、高い知能を維持しながら圧倒的なスループットを実現しています。 1. 圧倒的なコストパフォーマンスとスピード Gemini 3.1 Flash-Liteの最大の特徴は、その経済性と速さです。価格は入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルと非常に安価に設定されています。性能面では、従来のGemini 2.5 Flashと比較して「最初のトークンが出るまでの時間(TTFT)」が2.5倍高速化され、全体の出力速度も45%向上しました。これにより、リアルタイム性が重視されるレスポンシブなアプリケーション開発が容易になります。 2. 軽量モデルの常識を覆す高い知能 「Lite(軽量)」という名称ながら、その能力は極めて強力です。Arena.aiのリーダーボードではEloスコア1432を記録。推論能力を測るGPQA Diamond(86.9%)や、マルチモーダル理解を測るMMMU Pro(76.8%)といった主要ベンチマークにおいて、前世代の標準モデルである2.5 Flashを上回る精度を達成しています。 3. 柔軟な制御を可能にする「Thinking levels」 開発者は、Google AI StudioやVertex AIを通じて、モデルの「思考レベル(Thinking levels)」を調整できます。これにより、タスクの内容に合わせて「どれくらい深く推論させるか」を柔軟に選択できるようになりました。コストを優先したい高頻度の単純作業から、深い洞察が必要な...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260303
    Mar 2 2026
    youtube版(スライド付き) 関連リンク Microsoft Copilot Tasks発表、AIが「答える」から「実行する」時代へ Microsoftは2026年2月26日、AIアシスタントCopilotの新機能「Copilot Tasks」を発表しました。これまでの生成AIは、ユーザーの問いに対してテキストや画像で「答える」ことが中心でしたが、今回のアップデートは、AIがユーザーに代わって自律的にタスクを「実行する」エージェント型AI(AI Agent)への大きな転換を意味しています。 ■ 主な機能とユースケース Copilot Tasksは、自然言語で指示を与えるだけで、AIがバックグラウンドでタスクを分解・実行し、結果を報告します。主なユースケースとして、定期タスクの自動化、ドキュメント作成、予約や買い物の代行、ロジスティクスの最適化などが挙げられます。なお、支払いやメッセージ送信といった重要なアクションには、ユーザーの同意を必要とする「Human-in-the-loop」の設計が採用されています。 ■ エンジニアが注目すべき「クラウドサンドボックス」構造 技術的な側面で最も重要なのは、その実行環境の設計です。Copilot Tasksは、Microsoftのクラウド上に隔離された「仮想実行環境(サンドボックス)」でタスクを処理します。 2026年初頭、ローカルPC上で直接コマンドを実行するオープンソースのエージェント「OpenClaw」が、深刻な脆弱性を多数指摘され「セキュリティ上の悪夢」と評された事例がありました。これに対し、Microsoftはエージェントの実行場所をクラウド側に封じ込めることで、ユーザーのデバイスへの直接的なリスクを抑え、認証情報の漏洩やシステム乗っ取りを防ぐアーキテクチャを選択しました。 ■ 業界の動向と今後の展望 現在、AI業界は「エージェント型」の激戦区となっています。同時期にOpenAIは「Operator」を、GoogleはAndroid向けの「Geminiエージェント」を展開しており、AIがブラウザやアプリを直接操作する時代が本格的に到来しました。 今後の開発においては、単に「正解を出す」だけでなく、外部サイトの悪意ある記述による「プロンプトインジェクション」への対策や、AIが行ったアクションの責任の所在、監査ログの透明性といった「信頼性エンジニアリング」が競争力の鍵となります。 新人エンジニアの皆さんは、AIを単なるチャットボットとしてではなく、クラウド上の安全な環境で外部ツールを操作する「自律的なソフトウェアコンポーネント」として捉えることで、次世代のシステム設計のヒントが得られるはずです。現在はリサーチプレビュー段階であり、今後の段階的なロールアウトが注目されます。 引用元: https://innovatopia.jp/ai/ai-news/81599/ microgpt 元OpenAIのAndrej Karpathy氏が公開した「microgpt」は、外部ライブラリを一切使用せず、わずか200行の純粋なPythonコードだけでGPTの学習と推論を実現した教育的プロジェクトです。LLM(大規模言語モデル)の仕組みを極限までシンプルに削ぎ落とし、その「アルゴリズムの本質」を1つのファイルに凝縮しています。 概要 microgptは、現代のAIの核心となる技術をブラックボックスなしで実装しています。具体的には以下の要素が含まれています。 データセットとトークナイザ: テキストを読み込み、文字単位で数値(トークン)に変換する最小限の仕組み。Autograd(自動微分)エンジン: 誤差逆伝播法を実現する独自のValueクラス。PyTorchなどのライブラリが内部で行っている計算を、数学の連鎖律に基づいてゼロから記述しています。GPT-2ベースのアーキテクチャ: アテンション機構(トークン間の通信)とMLP(計算処理)を交互に配置し、残差接続やRMSNormを組み込んだ標準的なトランスフォーマー構造。学習と推論: Adamオプティマイザによるパラメータ更新と、学習した統計モデルから新しい文字列を生成(サンプリング)するループ。 本プロジェクトの制約と特徴 効率性よりも「理解のしやすさ」を最優先しているため、以下の制約があります。 ライブラリ依存なし: NumPyすら使わず、標準の数学ライブラリのみで動作します。スカラー演算: 通常、AIは行列演算で高速化しますが、本作は個々の数値を個別に計算します。そのため非常に低速ですが、デバッガで...
    Show More Show Less
    Less than 1 minute
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260302
    Mar 1 2026
    関連リンク Agentic AI 101 for Advisors as Anthropic Launches Wealth Management Tools AI大手のAnthropic社が、資産管理(ウェルスマネジメント)に特化した「Claude CoWork」プラグインを発表しました。これは、単にテキストを生成するだけのAIから、自律的に業務を遂行する「エージェント型AI(Agentic AI)」への大きな転換を象徴するニュースです。 新人エンジニアがまず押さえておくべき点は、この記事で定義されている「AIエージェント」の4つの基本要素です。これらがループ(循環)することで、AIは単なるツールを超えた「デジタル労働力」として機能します。 Sense(感知): プロンプトだけでなく、メールやツール、現在の状況といった周囲のコンテキストを把握する能力。Think(思考): 目標に対し、自身の状態や環境を踏まえて「次に何をすべきか」を自律的に推論する能力。Act(実行): 他のツールの呼び出しやワークフローの起動など、実際に外部へ影響を与えるアクション。Remember(記憶): インタラクションを通じて情報を保持し、将来の行動を改善する能力。 Anthropicが提供を開始するツールは、ポートフォリオの自動分析や税務分析、さらにはリバランス(資産再配分)の推奨や実行までをスケールさせて行うことが可能です。これにより、従来アドバイザーが行っていた定型業務をAIが肩代わりし、人間はクライアントとの対話や戦略的な成長により注力できるようになります。 この動きは、テクノロジー業界の構造にも影響を与えます。これまでOpenAIやAnthropicなどの汎用LLMを「業界特化型」にカスタマイズして提供していた「AIミドルウェア」プロバイダーにとって、基盤モデル側が直接専門ツールを提供し始めることは大きな脅威となります。 一方で、企業の既存のシステム構成や固有のデータ要件に合わせてAIを調整する、コンサルティング的なアプローチを持つスタートアップの重要性も示唆されています。エンジニアにとっては、AIモデルを単に使うだけでなく、「いかに既存の業務フローに組み込み、自律的なワークフローを設計するか」というエージェント設計の視点が、今後の開発において極めて重要になるでしょう。 引用元: https://www.wealthmanagement.com/artificial-intelligence/agentic-ai-101-for-advisors-as-anthropic-launches-wealth-management-tools The Factory Model: How Coding Agents Changed Software Engineering GoogleのエンジニアであるAddy Osmani氏による、AIエージェントがソフトウェアエンジニアリングの本質をどう変えたかについての洞察です。エージェント技術の進化により、エンジニアリングの「抽象化レイヤー」が一段階上がったと述べられています。 1. ソフトウェア開発の「第3世代」へ これまでのAI活用は、コードの補完(第1世代)や、人間が指示してAIが書く同期的な共同作業(第2世代)でした。現在は、仕様を渡せば自律的に環境構築からテスト、デバッグ、プルリクエスト作成まで行う「自律型エージェント(第3世代)」の時代に突入しています。これは、アセンブリからC言語、フレームワークへと抽象化が進んできた歴史の延長線上にある正当な進化です。 2. 「ファクトリーモデル」という考え方 新しいパラダイムでは、エンジニアは「コードを書く人」から「コードを書く工場(ファクトリー)を築く人」へと役割が変わります。工場とは、複数のエージェント、ツール、コンテキスト、そしてフィードバックループの集合体です。エンジニアの仕事は、個別のコードを書くことではなく、これらのエージェントを並行して動かし、システム全体をオーケストレートすることにシフトします。 3. エンジニアに求められるスキルの変化 コードを書く「作業」は自動化されますが、エンジニアリングの「核」となるスキルはむしろ重要性が増しています。 仕様(スペック)の定義力: 曖昧な仕様は、並行して動く大量のエージェントによって「曖昧な失敗」として増幅されます。何が成功かを明確に定義する力が最大のレバレッジになります。TDD(テスト駆動開発)の徹底: AIが生成したコードが正しいかを検証するには、実装より先にテストを書くTDDが不可欠です。テストこそがエージェントを...
    Show More Show Less
    Less than 1 minute
  • 私立ずんだもん女学園放送部 podcast 20260227
    Feb 26 2026
    youtube版(スライド付き) 関連リンク Boris Cherny氏がシェアした、CLAUDE.mdを理解する 本記事は、Anthropic社のスタッフエンジニアであるBoris Cherny氏が提唱した、AIコーディングエージェント「Claude Code」を最大限に活用するための設定ファイル「CLAUDE.md」の設計思想を解説したものです。このファイルは、プロジェクトのルートディレクトリに配置することで、AIに対して「チームのルール」や「作業の進め方」を伝える「外部メモリ」として機能します。新人エンジニアの方にとっても、AIを単なるチャット相手ではなく、頼れる「自律的なチームメンバー」として教育するための最高のガイドとなります。 主な要点は以下の通りです: 「Planモード」による思考の分離: 複雑なタスク(3ステップ以上の作業や設計判断)では、AIがいきなりコードを書き始めるのを防ぎ、まずは具体的な「計画」を立てさせます。人間とAIが実装方針に合意してから作業を開始することで、意図しないコードの書き換えや手戻りを最小限に抑えます。 「サブエージェント」によるコンテキスト管理: AIが一度に保持できる記憶容量(コンテキストウィンドウ)には限りがあります。リサーチや並列分析などの重いタスクは、別のAIインスタンス(サブエージェント)に切り出して分担させることで、メインの作業環境をクリーンに保ち、思考の精度を維持します。 「自己改善ループ」の構築: 人間がAIのミスを修正した際、その教訓をtasks/lessons.mdというファイルにパターンとして記録させます。これをAIに随時参照させることで、セッションをまたいでも同じ失敗を繰り返さない「成長するAI」を実現します。 品質担保の徹底と自律的なバグ修正: テストやログによる動作証明ができるまで「完了」と見なさない厳格なルールを設けます。また、バグ報告に対しては、人間に指示を仰ぐのではなく、AI自らがログを確認して自律的に解決(Zero context switching)することを目指します。 コア原則(シンプル・根本解決・最小影響): 過剰な設計を避け、一時しのぎではない根本的な原因解決を行い、必要な箇所だけを変更するという、シニアエンジニア基準の品質をAIに求めます。 これらの指針をCLAUDE.mdに定義することで、AIの自律性を引き出し、開発チーム全体の生産性を劇的に向上させることが可能になります。 引用元: https://qiita.com/uno_ha07/items/5820d195510861b5be71 入社前から自分の仕事を奪うセキュリティレビューAIエージェントを作った 本記事は、Sansan株式会社のプロダクトセキュリティグループでインターンを経験した学生が、セキュリティ設計レビューを自動化するAIエージェント「Hayami」を開発した事例を紹介しています。 1. セキュリティ設計レビューの課題 セキュリティ設計レビューとは、開発者が実装に入る前に設計書を確認し、セキュリティ上の懸念を洗い出す工程(シフトレフト)です。Sansanでは、160項目を超える社内ガイドラインとの照合を少人数で対応しており、以下の課題を抱えていました。 網羅性の担保: 膨大なガイドラインを全ての案件で手動チェックするのは限界がある。生産性のボトルネック: 開発側のスピードがAI活用で加速する中、レビューが遅延すると組織全体の生産性を下げてしまう。 2. なぜ独自開発か(AWS Security Agentとの比較) 既存の「AWS Security Agent」も検討されましたが、以下の理由から独自開発の「Hayami」が採用されました。 カスタマイズ性: 頻繁に更新される160以上の社内ガイドラインを、既存ツールに適応させ続ける運用コストが高い。ワークフローの統合: Slackをベースとした既存の依頼フローや、レビュー対象の判定基準といった独自の運用に柔軟に組み込む必要があった。 3. AIエージェント「Hayami」の実力 Hayamiは、Slackから設計書とガイドラインを読み込み、LLM(大規模言語モデル)を用いて分析結果を出力します。 高い精度: ベンチマーク測定の結果、社内ガイドラインへの適合率は95.8%に達し、セキュリティで最も回避すべき「抜け漏れ」は0%を記録しました。リードタイム削減: 初動のレビューコメントをAIが代行することで、レビュー終了までの時間を最大18.76...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260226
    Feb 25 2026
    youtube版(スライド付き) 関連リンク ClaudeはなぜRAGを捨てたのか?コード生成における「エージェント型検索」の優位性 LLM(大規模言語モデル)に特定の知識を与える手法として、現在は「RAG(検索拡張生成)」が主流です。しかし、Claudeの開発元であるAnthropic社は、コード生成の領域においてRAGから「エージェント型検索(Agentic Search)」へと舵を切りました。本記事では、その背景にある技術的な理由とメリット・デメリットを解説しています。 1. エージェント型検索とは何か? 従来のRAGは、事前にドキュメントをベクトル化(インデックス化)して保存し、LLMが関連しそうな情報を「受動的」に受け取る仕組みでした。 対して「エージェント型検索」は、AIエージェント自身にgrepやglobといった標準的な検索ツールを渡します。AIは「この機能の実装箇所を探そう」といった仮説を立て、必要な情報が見つかるまで自律的に検索と読み込みを繰り返します。いわば、AIがエンジニアのように「自分でリポジトリを歩き回る」手法です。 2. Anthropicがエージェント型検索を選んだ3つの理由 圧倒的なパフォーマンスと「使用感」: ベンチマーク上の数値だけでなく、実際に使った際の「直感的な精度の高さ(Vibes)」が劇的に向上しました。「情報の鮮度」問題(Code Drift)の解消: コードは頻繁に更新されるため、RAG用のインデックスはすぐに陳腐化します。エージェント型検索は「現在の生のコード」を直接読みに行くため、常に最新の状態を反映できます。セキュリティとリスクの低減: 外部のベクトルデータベースに機密データを複製して保存する必要がなく、既存の安全な環境内のツールを利用するだけで済むため、情報漏洩リスクを抑えられます。 3. トレードオフ(代償) この手法は万能ではありません。AIが何度も検索試行を繰り返すため、RAGと比較して「応答の遅延(レイテンシ)」が大きく、また「消費トークン量(コスト)」も跳ね上がります。しかし、Anthropicは「精度とセキュリティのメリットは、コストを支払う価値が十分にある」と結論づけています。 まとめ AIアプリケーションの設計は、「静的なデータを検索する」形から、「AIエージェントが動的に探索する」形へとパラダイムシフトが起きています。特に情報の鮮度が重要なソフトウェア開発において、この「エージェント型検索」は今後のスタンダードなアーキテクチャになる可能性があります。新人エンジニアの皆さんも、単にRAGを組むだけでなく、AIに「道具(ツール)」を使わせて自律的に動かすという考え方に注目してみると、より高度なAI活用ができるようになるでしょう。 引用元: https://zenn.dev/manntera/articles/f3017ecba9c9c1 #2|スラッシュコマンドで回す開発 — プロセスを分解してAIに割り当てる 本記事は、AIを開発プロセスに本格的に組み込む「AI駆動開発」の第2段階(Phase 2:Hybrid Co-Driving)における具体的な設計思想と実践方法を解説したものです。新人エンジニアの方にとっても、将来的にAIを良きパートナーとして使いこなすための道標となる内容です。 1. 「人間が運転し、AIが実行する」分業モデル Phase 2では、人間が「運転席」に座り、意思決定と品質判断を担います。一方で、具体的な作業の実行はAIに任せます。この分業をスムーズにするために導入されたのが「スラッシュコマンド」という概念です。 これまでエンジニアが手作業で行っていた「ブランチ作成」「コードレビュー」「プルリクエスト(PR)作成」といった定型作業を、/branch-create や /code-review といったコマンドとして定義し、AIに実行を依頼するスタイルをとります。 2. プロセスの細分化と設計原則 AIに指示を出す際、「設計して」といった大きな粒度で投げると精度が安定しません。そこで重要なのが、業務プロセスを「入力・処理・出力」が明確なサブプロセスにまで分解することです。 コマンド設計においては、以下の2つの原則が挙げられています。 単一責任の原則(UNIX哲学): 1つのコマンドには1つの責務だけを持たせます。複数の役割を詰め込むとAIが混乱し、品質が低下するためです。パイプライン化: 小...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260225
    Feb 24 2026
    youtube版(スライド付き) 関連リンク AIエージェントの性能差のキー、ハーネスエンジニアリング 2026年現在、AIエージェントの性能を左右するのは、LLMモデルそのものよりも、モデルを包み込み制御する周辺インフラ「ハーネス(Harness)」の設計であるという認識が一般的になっています。本記事では、このハーネスエンジニアリングの重要性と具体的な実践手法について解説されています。 ハーネスとは、モデルをCPUに例えた際の「OS」にあたる存在です。どれほどモデルが賢くても、コンテキスト管理やツール統合、メモリ管理が不十分であれば、エージェントとしての実力は発揮されません。事実、特定の実験ではモデルの重みを変えずにハーネスの設計を変更しただけで、タスクの成功率が6.7%から68.3%へと約10倍に跳ね上がった例もあります。 エンジニアがハーネス設計において意識すべき重要なポイントは以下の通りです。 コンテキスト管理の3原則(Reduce / Offload / Isolate) モデルが処理する情報(コンテキスト)が長すぎると、指示を忘れる「モデルドリフト」が発生します。これを防ぐため、古い履歴を要約して圧縮する(Reduce)、情報を外部ファイルに逃がし、汎用的なツール(bash等)でアクセスさせる(Offload)、重い副タスクはサブエージェントに任せる(Isolate)という設計が有効です。 ツールの選択と集中 エージェントに与えるツールは、多ければ良いというわけではありません。選択肢が多すぎるとモデルは混乱し、冗長な動作を繰り返します。不要なツールを削減し、シンプルで強力なツールに集約することで、意思決定の精度と速度が向上します。 自己検証と状態の引き継ぎ 長時間稼働するエージェントには、タスク完了前に「本当に終わったか」をチェックする自己検証ループ(Middlewareパターン)の実装が不可欠です。また、セッションをまたぐ場合は、gitの履歴や構造化された進捗ファイル(JSON)を活用し、次のセッションへ確実に状態を引き継ぐ仕組みが信頼性を担保します。 新人エンジニアへのアドバイスとして、最新モデルの選定に固執する前に、まずはこれらの「ハーネス」側の設計を見直すことが、投資対効果の高い開発につながります。ただし、モデルの進化スピードも速いため、ハーネス自体も「複雑に作り込みすぎず、必要に応じて軽量に作り直せる」柔軟な設計を心がけることが、2026年のエンジニアリングにおける最適解と言えるでしょう。 引用元: https://note.com/timakin/n/nc85957a9f710 Writing about Agentic Engineering Patterns 著名な開発者であるSimon Willison氏が、AIエージェントと共にソフトウェアを開発するための新しいプラクティス集「Agentic Engineering Patterns(エージェンティック・エンジニアリング・パターン)」の公開を開始しました。これは、AIを単なるチャットツールとしてではなく、自らコードを実行・テストし、自律的に改善を繰り返す「コーディングエージェント」として活用するための現代版デザインパターン集です。 本プロジェクトの核心は、プロのエンジニアが自身の専門知識をAIによって増幅(アンプリファイ)させ、開発を加速させることにあります。Willison氏は、非エンジニアが雰囲気でコードを書く「バイブコーディング」とは一線を画し、プロフェッショナルがツールを使いこなすための規律として「Agentic Engineering(エージェンティック・エンジニアリング)」を定義しています。 本プロジェクトは、1994年の名著『デザインパターン』にインスパイアされており、以下の2つの章からスタートしています。 コード生成は安価になった(Writing code is cheap now) 初期コードを書き出すコストがほぼゼロになった現在、これまでの開発の直感やチームの働き方をどのように変えていくべきか、その本質的な課題を扱います。レッド/グリーン TDD(Red/green TDD) テスト駆動開発(TDD)の手法が、エージェントに対して最小限の指示で正確かつ簡潔なコードを書かせるために、いかに強力な武器になるかを解説しています。 新人エンジニアにとって特に注目すべき点は、これが単なる過去の記事の蓄積ではなく、時間の経過...
    Show More Show Less
    Less than 1 minute