第 13 篇:可观测性 —— 日志、指标、追踪

第 13 篇:可观测性 —— 日志、指标、追踪
本篇是《MCP 开发实战教程》专栏的第 13 篇,也是第四部分"设计模式"的收官篇。前三篇我们搞定了资源管理、流量控制和错误处理,但这些都属于"防御"——出了问题怎么应对。本篇讲的是"主动感知"——在问题发生前发现征兆,在问题发生后快速定位根因。可观测性是 MCP Server 从"能跑"到"能运维"的关键一步。引言你可能有过这种体验:用户反馈"AI 回答的数据不对",你翻遍了日志,只找到一条"工具调用成功"。你不知道传了什么参数、查了哪个数据库、花了多长时间、返回了多少行。你只能回复"我再看看",然后在代码里加 print 语句重新部署。这不是个例。大多数 MCP Server 的可观测性停留在"能看 error log"的水平。但 MCP 的特殊性在于:调用者是 AI Agent,不是人类。人类看到错误会停下来想办法,Agent 看到错误可能会重试 100 次、编造数据、或者默默绕过你的 Server。你需要一套完整的可观测性体系来回答这些问题:发生了什么:哪个 Agent 调用了哪个工具,传了什么参数?花了多长时间:延迟瓶颈在哪里——是数据库查询还是外部 API?出了什么问题:错误率是否在上升?哪个工具最不稳定?趋势如何:与昨天相比,调用量是增是减?这就是可观测性的三大支柱——日志(Logs)