☁️ Azure 原生 · Kata 隔离 · 多租户 AI Agent 平台

在 AKS 上运行
OpenClaw
完整蓝图

OpenClaw on AKS 是一套完整的生产级参考架构,将 OpenClaw AI Agent 平台部署到 Azure Kubernetes Service,结合 Kata Containers 强隔离沙箱、LiteLLM 统一模型代理,构建可多租户、可隔离、可扩展的 AI Agent 平台基础设施。

Kata VM
强隔离运行时
GPT-5.4
Azure OpenAI
Multi-Tenant
多租户架构

核心能力

不只是跑起来,而是构建一个可多租户、可隔离、可扩展的 AI Agent 平台基础设施

🛡️

Kata 强隔离沙箱

每个 Agent Sandbox 运行在 Kata 隔离运行时中,具备比普通容器更强的安全边界,适合 AI Agent 高风险任务执行场景。

🔀

LiteLLM 统一模型接入

通过 LiteLLM 提供 OpenAI 兼容 API,向下对接 Azure OpenAI / AI Foundry 的 GPT-5.4,统一模型访问入口,支持多模型扩展。

🏢

多租户平台入口

Admin Portal 管理平台,Customer Portal 提供用户注册、登录、聊天与渠道集成,Portal API 作为统一后端。

动态子代理隔离

支持动态创建短生命周期 Subagent Sandbox,每个子任务独立沙箱运行,带 TTL 自动回收,最多 5 个并发子代理。

💬

多渠道集成

支持 Slack、Feishu、Telegram 等 IM 渠道直接接入用户 Sandbox,实现端到端 Agent 交互。

☁️

Azure 原生设计

Terraform 管理所有 Azure 资源,AKS Managed Identity、ACR、Azure AI Foundry,一套完整 Azure 原生技术栈。

架构设计

系统采用分层设计,从 Azure 基础设施到 Kubernetes 平台,每层职责清晰

🏗️ Terraform 两层架构

  • Layer 1 (Azure):VNet、AKS、ACR、AI Foundry、Key Vault
  • Layer 2 (K8s):命名空间、StorageClass、LiteLLM、Portals
  • 避免 AKS 创建前 K8s Provider 初始化失败的经典问题

🖥️ 节点池设计

  • System Pool:承载通用组件 (Standard_D4s_v5)
  • Kata Pool:承载高隔离 Sandbox (支持嵌套虚拟化)
  • 调度策略隔离工作负载,确保安全边界

🔒 沙箱隔离设计

  • 每个用户独立 Pod、网络命名空间、持久卷 (~2Gi)
  • Kata 微 VM 隔离 — 独立内核,强隔离边界
  • Sandbox CRD 声明式管理,状态可控

🌐 网络设计

  • Azure CNI Overlay — Pod CIDR 与 VNet 解耦
  • Calico Network Policy — Pod 级别流量控制
  • NGINX Ingress 统一入口,externalTrafficPolicy=Local