AI 应用 Token 预算:成本治理要进架构图

AI 应用 Token 预算:成本治理要进架构图
AI 应用 Token 预算成本治理要进架构图一、Token 不是小数点后的成本大模型应用上线前很多团队只关心效果等流量起来后才发现账单不对劲。Token 消耗和接口 QPS 不完全相关长上下文、重试、批量任务、日志分析和无节制的历史会话都会快速放大成本。架构图里如果没有成本治理这个系统迟早要补课。Token 预算不是财务部门的事而是后端架构的一部分。每个租户、业务线、任务类型和模型等级都应该有预算边界。没有预算限流就没有依据没有成本归因优化就无从下手。二、预算链路预估、扣减、结算、告警flowchart TD A[AI 请求] -- B[Token 预估] B -- C[预算检查] C -- D[模型调用] D -- E[真实消耗结算] E -- F[成本统计] F -- G[预算告警] C -- H[拒绝或降级]请求进入网关时先根据输入长度、上下文文档和最大输出估算 token。预算足够才允许调用调用完成后再用真实消耗修正。预估不可能完全准确但比不控强。并发场景下要做预扣减避免大量请求同时通过后把预算打穿。预算维度要按业务设计。免费用户可以限制日预算高价值租户可以设置更高上限后台批量任务可以低优先级排队核心交互接口可以保留独立额度。所有请求使用同一个额度池最后一定会互相抢。三、配置示例按任务分配模型和额度下面是一份简化配置。真实系统可以放在配置中心并支持灰度。ai_budget: tenant_daily_tokens: 200000 tasks: ticket_summary: model: fast-medium max_tokens: 512 priority: high batch_report: model: cheap-large-context max_tokens: 2048 priority: low配置里要区分在线和离线任务。在线任务更看重延迟和稳定离线任务更看重成本和吞吐。低优先级任务预算不足时可以延迟执行高优先级任务预算不足时可能需要提示升级或走人工。还要记录每次调用的成本归因租户、用户、接口、任务、模型、输入 token、输出 token、重试次数和降级状态。只有统计足够细才知道优化哪一块最有效。四、优化策略先减少无效上下文成本优化第一步不是换更便宜模型而是减少无效上下文。很多请求把完整历史、整篇文档和无关字段都塞给模型效果没提升成本先翻倍。应该做上下文裁剪、摘要缓存、检索过滤和模板压缩。第二步才是模型分层。简单分类、格式转换和摘要任务不一定需要最高等级模型。复杂推理、重要决策和高价值客户再使用更强模型。模型分层要基于评测结果不要凭感觉降级。最后预算告警要能触发动作。比如当天额度用到 80% 时提醒用到 95% 时限制低优先级任务用完后降级或排队。只发一封没人看的告警邮件不能叫治理。预算还要和产品策略打通。免费用户、试用用户、付费用户和内部运营任务不应该共享同一套阈值。否则一个后台分析任务可能挤掉真实用户交互。架构层要给产品层留配置入口让成本策略可以随业务阶段调整而不是每次都改代码发布。复盘时建议看 TopN 消耗。按租户、接口、任务和模型分别排序通常很快能找到异常调用。很多成本问题不是整体流量大而是某个功能把历史上下文塞得太长或者失败重试没有上限。找到源头比全局降级更有效。五、总结AI 应用的 Token 预算必须进入架构设计。通过预估、预扣减、真实结算、细粒度归因和任务分级才能控制成本并保护核心体验。成本不是上线后的账单问题而是系统稳定性问题。