2026.05.15 技術ブログ（technical-blog）業務システム

Microsoft AI Tour トラック2 要点まとめ：エージェント開発から本番運用まで

R.I

こちらの記事は「Microsoft AI Tour トラック2」の内容をまとめたものです。 AIやLLM（大規模言語モデル：ChatGPTの裏側で動いているような文章を理解・生成する技術）にまだあまり触れたことがないエンジニアの方でも理解できるように、専門用語の解説を交えながら解説します。

🎯 対象 / ゴール

対象: 業務でAIを活用している、またはこれから本格的にシステムへ組み込んでいきたいエンジニア。
ゴール: 「エージェンティックAI」を「作る → 評価する → 本番環境へ届ける → 運用する」までの一連の流れを掴むこと。
- ※エージェンティックAI（AIエージェント）とは： 単にユーザーの質問にテキストで答えるだけのAIではなく、与えられた目標に対して自律的に計画を立て、外部のAPIやデータベースなどの「ツール」を実行しながらタスクを完了させるAIのことです。
テーマ: 「プロトタイプ（試作品）を作るのは簡単だが、本番運用は難しい」というギャップを埋めるための考え方（Gen-AIOps）と、Microsoftの各種開発ツールの役割を理解する。

🛠️ この資料で扱う主な製品・用語一覧

AIエージェントを作って運用するまでには様々なツールが登場します。迷わないよう、それぞれの役割をリストで整理しておきます。

Microsoft AI Foundry (統合プラットフォーム)
- 役割: AI開発の「総合ポータルサイト」です。AIモデルの選定、エージェントの構築、ツールの接続、評価、ログの追跡（トレース）、監視（モニタリング）などを一括で行います。
VS Code + AI Toolkit (開発者向けツール)
- 役割: 使い慣れたエディタ（Visual Studio Code）の中で、AIモデルのカタログを見たり、エージェントを作ったり、評価テストを行ったりするための拡張機能です。
MCP (Model Context Protocol)
- 役割: AIエージェントが、社内のデータベースや外部ツールに「安全かつ決められたルール」で接続するための仕組み（規格）です。
Microsoft Agent Framework (開発用SDK)
- 役割: 複数のAIを連携させるなど、より複雑なエージェントシステムをプログラムコードで構築するための開発キットです。（Semantic KernelやAutoGenといった過去の技術が統合されたものです）
Azure AI / Azure OpenAI など (モデル実行基盤)
- 役割: 実際にAIの脳みそ（LLMなど）を動かすためのクラウド環境です。
Microsoft Fabric (分析・データ統合)
- 役割: 社内の様々なデータを一箇所に集め、AIが使いやすい状態にするためのデータ分析プラットフォームです。
Azure Database / データベース製品群
- 役割: Azure Database for PostgreSQL、Azure Cosmos DBなど、AIが参照するデータを保存する場所です。
（参考）GitHub Copilot
- 役割: コーディング自体を支援してくれるAIアシスタントです。

🗺️ 全体像（トラック2で学べる3つの層）

AIエージェントの開発は、大きく以下の3つの層に分けられます。

開発フロー（Gen-AIOps）: 設計 → 検証 → デプロイ（本番環境への配置） → 改善のサイクルを回す。
アーキテクチャ（Agent + Tools + Data）: AIモデル単体ではなく、「AI + 外部ツール + データ」の連携を前提としたシステム設計。
実装手段: 目的や複雑さに応じて、画面操作メインのツール（ローコード）から、ゴリゴリのコード実装（フレームワーク）までを選び分ける。

1. 「プロトタイプは簡単、本番運用（プロダクション）は難しい」

APIを叩くだけの簡単なAIアプリを作るのは容易ですが、本番環境で運用するには以下の論点をクリアする必要があります。

適切なモデル選定: 品質、コスト、レイテンシ（応答速度）のバランス。
プロンプト設計: AIへの指示出しの最適化。
評価: AIの回答品質を測る仕組み。
変動（ドリフト）追跡: 時間経過とともにAIの回答傾向が変化・劣化してしまう現象の監視。
安全性・セキュリティ・コスト管理

【重要概念】Gen-AIOps（生成AIの運用サイクル） AI体験は「作って終わり」ではありません。従来のソフトウェア開発のDevOpsのように、「設計 → 検証（評価） → 本番化 → 監視/改善」を回し続ける枠組みが必要です。これらを一元管理するのが「Microsoft Foundry」などのツールです。

2. 例題シナリオ：DIY小売アプリでのエージェント開発

全体の流れを理解するため、DIY小売店の「顧客向けAIエージェント」を題材にします。

課題: 部屋の壁の模様替えで迷っている顧客に対し、失敗しない提案をしたい。
エージェントの働き:
- 顧客から送られた部屋の画像などを理解する（マルチモーダル機能：テキストだけでなく画像なども扱える機能）。
- 自ら製品カタログを検索したり、在庫・価格APIを呼び出したり（外部ツール連携）して、具体的な提案を返す。

3. モデル選定：品質・コスト・レイテンシのトレードオフ

「どのAIモデル（GPT-4やローカルLLMなど）を使うべきか」は用途次第です。

品質: 回答の賢さ、正確さ。
コスト: 本番で大量に使われた場合のAPI利用料金。
レイテンシ: ユーザーを待たせない応答速度。

「AI Toolkit」のモデルカタログなどを使い、複数のモデルを並べて実際のプロンプトで比較テスト（プレイグラウンド機能）をして決定します。

4. エージェント設計：システムプロンプトで“振る舞い”を規定

システムプロンプト（AIの裏側に設定する絶対的な指示書）を書き、エージェントの「役割」「口調」「守るべきルール」「判断基準」を明確にします。プロンプトの改善案をAI自身に出してもらう支援機能などを活用して品質を上げます。

5. ツール連携（MCP：Model Context Protocol）

AIが自力で最新の在庫などを知ることはできないため、外部システムとつなぐ必要があります。ここで活躍するのがMCPです。

メリット: エージェントは「在庫を調べるツールがある」ことだけを知っていればよく、実際の検索処理は裏側のツールに任せられます。これにより、開発者はAIの会話ロジック作りに集中できます。

6. 評価：信頼を作る（手動 + AI支援）

本番運用において最も重要なのが「評価」です。AIが一度でも的外れな提案をすると、ユーザーの信頼を失います。

手動評価: 人間の目で、サンプルの質問と応答を見て正確さや危険な出力がないかチェックします。
AIによる自動評価: 別のAIモデルを使って、「質問との関連性」や「グラウンデッドネス（ハルシネーション/嘘をつかず、事実や提供データに基づいているか）」を自動で採点し、理由も提示させます。
テストデータが手元になくても、指示内容からテスト用のダミーデータを自動生成することが可能です。

7. 「アプリに組み込む」：エージェントをプロダクトにする

「Microsoft Agent Framework」などを使い、作成したエージェントを実際の自社アプリの裏側（バックエンド）のコードとして統合する手順が必要です。

8. Microsoft Foundry：統合プラットフォームの役割

前述した評価や監視を行う「司令塔」となるのがMicrosoft Foundryです。

多数のモデルからの選択
社内データや外部ツールとの接続設定
トレース: AIが「どのようなプロセス・推論を経てその回答に至ったか」の追跡機能。
モニタリング: APIの呼び出し回数、トークン数（テキスト量）、コストの監視。

画面上での手軽な構築（ローコード）と、コードによる複雑な実装の「橋渡し」となる立ち位置のツールです。

9 & 10. シングルエージェント vs マルチエージェント

複雑なシステムを作る場合、実装の考え方が2つあります。これらをコードで実装するためのSDK（開発キット）が「Microsoft Agent Framework」です。

シングルエージェント:
- 1つの万能なAIが、「画像解析 → 検索 → 推薦」などを全てこなす構成。
- シンプルですが、「検索機能だけ新しくしたい」「機能を追加したい」といった拡張が難しくなります。
マルチエージェント:
- 「在庫確認専門AI」「店舗案内専門AI」など、タスクごとにAIを分割し、それらを連携（オーケストレーション）させる構成。
- 順次実行や並列実行が可能になり拡張性が高まりますが、「どのAIが何をしたか」を追跡（トレース）する仕組みが必須になります。

11. データ基盤：AIアプリに必要なデータ統合・検索

AIを賢くするには、社内のデータを正しく読み込ませる必要があります。ここで既存のデータベースの課題（データが散らばっているなど）が浮き彫りになります。

ベクトル検索: 「キーワードの一致」ではなく、「文章の意味の近さ」でAIにデータを検索させる技術。
Microsoft Fabric等: AI活用のために、自社データを「意味で検索できる」「統合できる」「安全に扱える」状態に整える基盤がセットで必要になります。

📝 全体まとめ

本番環境で成功するための鍵は、開発して終わりではなく「評価・運用まで含めた設計（Gen-AIOps）」を取り入れること。
エージェントは、ただテキストを出力するだけでなく、ツールやデータとの連携を前提に設計する。
システムの複雑さに応じて、AIツールキット（素早い構築）、Foundry（統合管理）、Agent Framework（複雑なマルチエージェントの実装）を使い分ける。
AIの“信頼”は偶然には生まれません。適切な評価、処理のトレース（追跡）、稼働監視によって作り上げるものです。