株式会社ずんだもん技術室AI放送局 cover art

株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

By: 株式会社ずんだもん技術室AI放送局
Listen for free

About this listen

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)
Episodes
  • 私立ずんだもん女学園放送部 podcast 20260306
    Mar 5 2026
    youtube版(スライド付き) 関連リンク skill-creatorから学ぶSkill設計と、Orchestration Skillの作り方 本記事は、Anthropicが提唱する「Agent Skills(エージェント・スキル)」の設計思想と、そのベストプラクティスを解説したドキュメントです。特に、スキル作成を支援するメタスキル「skill-creator」の構造を分析し、複雑なタスクをこなす「オーケストレーション型スキル」の作り方を、新人エンジニアにも分かりやすく提示しています。 1. Agent Skillsの基本と「段階的開示」 Agent Skillsとは、AIエージェントに特定のワークフローや知識を教える命令セットです。設計の核心は「Progressive Disclosure(段階的開示)」にあります。 AIの記憶領域(コンテキストウィンドウ)は限られた「公共財」であるため、最初から全ての情報を読み込ませるのではなく、必要に応じて3段階で情報をロードします。 Level 1: スキル名と説明(常に読み込む。トリガー判定用)Level 2: メインの指示(スキル発動時に読み込む)Level 3: スクリプトや参照資料(実行時に必要になったら読み込む) 2. 失敗しないスキル設計の7つのベストプラクティス 「skill-creator」の構造から、以下の汎用的な設計パターンが学べます。 指示の委譲: メインの指示書(SKILL.md)は司令塔に徹し、専門的な処理はサブエージェントに任せる。スクリプトの活用: ループや計算、ファイル操作など、AIが苦手な「確定的処理」はプログラム(Python等)に外出しする。スキーマ契約: AIとプログラムの間でやり取りするJSON形式を厳密に定義し、連携ミスを防ぐ。Why-driven設計: 「絶対〜しろ」と命令するだけでなく「なぜそれが必要か(理由)」を説明することで、AIの柔軟な対応を引き出す。Description(説明文)の最適化: 説明文が悪いとスキルが起動すらしないため、トリガー条件を具体的に記述する。チャット外での連携: 大量のデータ評価など、チャットUIでは難しい作業は専用のHTMLビューアなどを生成して行う。移植性の確保: 実行環境の制約(並列処理ができるか等)に応じて、自動で処理を切り替える工夫をする。 3. 2つのオーケストレーション戦略 複雑な処理をまとめる際、記事では2つのアプローチを比較しています。 Sub-agent型: 1つの親スキルが、複数の「子のAI」を生成して並列で動かす。評価や分析を同時に行いたい場合に有効。Skill Chain型: 独立した小さなスキルを「数珠繋ぎ」にしてパイプラインを作る。調査、実行、レポート作成など、手順が直列で決まっている場合に適している。 結論 これからのスキル開発は、単なる「プロンプトの束」ではなく、制御フロー、専門ロジック、データ契約、UIを持つ「小さなソフトウェア」として設計することが求められます。この構造化を意識することで、より信頼性が高く、メンテナンスしやすいAIエージェントを構築できるようになります。 引用元: https://nyosegawa.github.io/posts/skill-creator-and-orchestration-skill/ MCPはなぜCLIに負けたのか —— 経緯と構造を整理する 2024年にAnthropicが発表したMCP(Model Context Protocol)は、当初「AIとツールの架け橋」として業界を席巻しましたが、2026年現在ではCLI(コマンドラインインターフェース)に対してその優位性を失いつつあります。本記事は、なぜMCPが短期間でCLIに追い抜かれたのか、その構造的な背景を分析しています。 【MCP誕生の背景:モデルの「能力不足」】 2024年11月時点のAIモデルは、ツールの入出力を自力で解釈する能力が不安定でした。そのため、MCPはモデルとツールの間にJSON-RPCベースの仲介層を置き、構造化されたデータ(スキーマ)で「何ができるか」を明示的に教える「補助輪」としての役割を果たしました。 【モデルの進化が前提を壊した】 2025年以降、推論能力が飛躍的に向上した新世代モデル(Opus 4.6等)が登場しました。これらのモデルは、manページやヘルプテキストを読むだけで適切なコマンドを組み立て、エラーが発生しても自律的に修正できる能力を獲得しました。結果として、モデル側の進化が「構造化された仲介層」というMCPの必要性を解消してしまいました。 【トークン効率と運用コストの壁】 実運用におけるCLIとの比較...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260305
    Mar 4 2026
    youtube版(スライド付き) 関連リンク LangChain Skills LangChain社は、AIコーディングエージェントがLangChainエコシステム(LangChain、LangGraph、Deep Agents)をより正確に扱えるようにするための専門知識パッケージ「Skills(スキル)」の第一弾をリリースしました。 近年の開発現場では「Claude Code」のようなAIエージェントがコードを生成・修正する場面が増えていますが、今回リリースされた「Skills」を導入することで、LangChainに関連するタスクの成功率が従来の29%から95%へと劇的に向上することが確認されています。 「Skills」とは何か? 新人エンジニアの方にとって、AIエージェントは非常に頼もしい存在ですが、エージェントに「あれもこれも」と大量のツールや指示を与えすぎると、かえって混乱して性能が落ちてしまうという課題(ツールの過負荷)がありました。 「Skills」は、この問題を解決するために設計されています。 必要な時だけ読み込む: 「動的ロード(Progressive Disclosure)」という仕組みを採用しており、エージェントは現在取り組んでいるタスクに関係があるスキルだけを、その都度取り出して使用します。ポータブルな形式: Markdownファイルやスクリプトで構成されており、特定のプラットフォームに依存せず、スキル機能をサポートする様々なエージェントで共有・利用が可能です。 提供される主なスキル 現在、GitHubの「langchain-skills」リポジトリでは、大きく分けて3つのカテゴリーで11個のスキルが提供されています。 LangChain: クラシックなエージェント構成やツール呼び出しのパターンに関するガイド。LangGraph: 状態管理や「Human-in-the-loop(人間の介在)」、実行の永続化など、高度なエージェント制御に関するガイド。DeepAgents: ファイルシステム操作や事前定義されたミドルウェアを活用するためのガイド。 まとめと今後の展望 今回のリリースにより、AIエージェントは「LangChainをどう使えばいいか」というドキュメントを読み解く段階を超え、最初から「使い方のコツ」を習得した状態で開発をサポートしてくれるようになります。 今後はLangSmith(評価・運用プラットフォーム)向けのスキル追加も予定されており、エージェントによる開発の自動化がさらに加速していくことが期待されます。エンジニアにとっては、エージェントのセットアップがより簡単になり、より本質的な設計やロジック構築に集中できる環境が整いつつあります。 引用元: https://blog.langchain.com/langchain-skills/ #3|AIが自走し、人間は管制する — Pilot-Tower開発の設計思想 本記事は、AI駆動開発における人間とAIの役割分担を「航空管制」になぞらえた次世代の開発手法「Pilot-Tower(P&T)開発」の設計思想を解説しています。 従来のAI活用(Phase 2)では、人間が運転席に座りAIに個別の指示を出していましたが、これではAIの稼働時間が人間の活動時間に縛られるという限界がありました。P&T開発(Phase 3)では、AIを「パイロット(操縦士)」、人間を「タワー(管制塔)」と定義し、AIが自律的に計画・実装・検証を進め、人間は要所での判断のみを行う構造への転換を目指します。 【設計の核心:上流と下流の境界を溶かす】 「仕様を固めてから実装する」という直列なプロセスではなく、要件定義・設計・実装を同時並行で回す「探索的ループ」を重視しています。AIは以下の3つのモードを使い分け、不確実性を段階的に排除します。 plan-refine: 対話による計画の詳細化。plan-spike: 仮実装による技術検証。コードは捨てるが知見を蓄積する。plan-execute: 検証済みの計画に基づく本実装。 これらを通じて、AI自身が読み書きし、自律判断の根拠とする「生きたドキュメント(plan.md)」を育てていきます。 【自走と統制を両立する3つの仕掛け】 AIに自律性を与えつつ、制御不能になるのを防ぐための仕組みが導入されています。 ループ構造: AIが計画・実行・ログ記録・課題抽出を自律的に繰り返すサイクル。Decision Required (DR): AIが判断に迷う箇所で停止し、人間にA/B案と推奨案を提示する仕組み。人間は「選択」するだけで管制が可能です。ガードレール: セキュリティや決済など、AIが独断で触...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260304
    Mar 3 2026
    youtube版(スライド付き) 関連リンク GPT-5.3 Instant: Smoother, more useful everyday conversations OpenAIは2026年3月3日、ChatGPTで最も利用されているモデルの最新アップデート版「GPT-5.3 Instant」をリリースしました。このモデルは、ベンチマークの数値だけでは測れない「日常的な対話の質」に焦点を当てており、より自然で、かつ的確な回答が可能になっています。新人エンジニアの方にとっても、AIとの対話やプログラミング補助において、よりストレスの少ない体験が期待できる内容です。 主な改善点は以下の4点です。 過剰な拒否や注釈(説教)の削減 従来のモデル(GPT-5.2 Instant)は、安全性を考慮しすぎるあまり、単純な質問に対しても長い警告文や道徳的な前置きを付け加える傾向がありました。5.3ではこれが大幅に改善され、ユーザーの意図を汲み取って直接的な回答を返すよう調整されています。これにより、対話のテンポが損なわれなくなりました。 Web検索情報の統合精度の向上 Web検索を利用した回答の際、単に検索結果を要約するだけでなく、モデルが持つ既存の知識と検索情報をより高度に融合させることができるようになりました。最新のニュースを既存の文脈に当てはめて解説する能力が向上し、情報の優先順位付けも洗練されています。 より自然で簡潔な対話スタイル 「深呼吸して」「落ち着いて」といった過剰な配慮や、不自然な決めつけが減少しました。よりフォーカスされた自然なトーンになり、設定から温かみや熱意の調整も可能になっています。ただし、日本語や韓国語においては、まだ表現が硬かったり直訳調になったりする課題が残っており、今後の改善課題とされています。 ハルシネーション(事実誤認)の低減 内部評価において、医療や法律といった高リスク領域でのハルシネーション率が、Web利用時で26.8%、内部知識のみで19.7%減少しました。ユーザーからのフィードバックに基づいた評価でも約10〜22%の精度向上が確認されており、情報の信頼性が高まっています。 エンジニア向けの提供情報 APIでは既に「gpt-5.3-chat-latest」として利用可能です。今後「Thinking」や「Pro」モデルへのアップデートも予定されています。なお、旧モデルであるGPT-5.2 Instantは、2026年6月3日までレガシーモデルとして提供された後に廃止される予定です。 今回のアップデートは、AIを単なる「検索機」や「ツール」としてではなく、より「意図を理解してくれるパートナー」へと進化させる重要なステップと言えます。 引用元: https://openai.com/index/gpt-5-3-instant Gemini 3.1 Flash-Lite: Built for intelligence at scale Google DeepMindは、Gemini 3シリーズにおいて最も高速かつコスト効率に優れた新モデル「Gemini 3.1 Flash-Lite」をプレビュー公開しました。このモデルは、大量のデータを処理する必要がある開発者向けに設計されており、高い知能を維持しながら圧倒的なスループットを実現しています。 1. 圧倒的なコストパフォーマンスとスピード Gemini 3.1 Flash-Liteの最大の特徴は、その経済性と速さです。価格は入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルと非常に安価に設定されています。性能面では、従来のGemini 2.5 Flashと比較して「最初のトークンが出るまでの時間(TTFT)」が2.5倍高速化され、全体の出力速度も45%向上しました。これにより、リアルタイム性が重視されるレスポンシブなアプリケーション開発が容易になります。 2. 軽量モデルの常識を覆す高い知能 「Lite(軽量)」という名称ながら、その能力は極めて強力です。Arena.aiのリーダーボードではEloスコア1432を記録。推論能力を測るGPQA Diamond(86.9%)や、マルチモーダル理解を測るMMMU Pro(76.8%)といった主要ベンチマークにおいて、前世代の標準モデルである2.5 Flashを上回る精度を達成しています。 3. 柔軟な制御を可能にする「Thinking levels」 開発者は、Google AI StudioやVertex AIを通じて、モデルの「思考レベル(Thinking levels)」を調整できます。これにより、タスクの内容に合わせて「どれくらい深く推論させるか」を柔軟に選択できるようになりました。コストを優先したい高頻度の単純作業から、深い洞察が必要な...
    Show More Show Less
    Less than 1 minute
No reviews yet