【infra之路】Prefill具体在做什么
📅 2026/7/1 14:23:05
👁️ 次浏览
Prefill 就是把用户的 prompt 一次性处理完为 Decode 阶段准备好 KV Cache。具体做了什么用户发来一个 prompt比如请解释什么是AI假设 10 个 token。Prefill 阶段做的事和训练时的前向传播几乎一样输入: [请, 解释, 什么, 是, AI] ← 5 个 token 经过 Embedding → [5, 4096] 经过 32 层 Transformer每层: Self-Attention带 causal mask: Q, K, V 都是完整的 [5, 4096] 计算 5×5 的 attention 矩阵 输出 [5, 4096] FFN: 输出 [5, 4096] 最终层输出: [5, 4096] LM Head: [5, 32000] ← 每个位置的 logits这一步的关键产出有两个1. 第一个生成 token——取最后一个位置的 logits采样得到第一个生成词比如 “AI” → “是”。2. KV Cache 初始化——每层计算出的 K 和 V 全部存入 KV CachePrefill 完成后KV Cache 状态: Layer 0: K [5, 4096] ← prompt 的 5 个 token 的 Key V [5, 4096] ← prompt 的 5 个 token 的 Value Layer 1: K [5, 4096] V [5, 4096] ... Layer 31: K [5, 4096] V [5, 4096]为什么叫 “Prefill”因为它在预先填充KV Cache。Decode 阶段每生成一个 token 都要和所有历史 token 做 Attention而 prompt 部分的 K 和 V 在 Prefill 阶段就已经算好了不需要再算。Prefill 之后进入 Decode: Decode Step 1: 输入 是第 6 个 token 每层计算 Q_6, K_6, V_6 K_6, V_6 追加到 KV Cache现在 6 个 token Q_6 和 KV Cache 中所有 6 个 token 做 Attention → 生成第 7 个 token Decode Step 2: 输入第 7 个 token KV Cache 现在 7 个 token ...如果没有 PrefillDecode 的第一步就要从第 1 个 token 开始逐个生成prompt 的每个 token 也要做一次前向传播太慢了。Prefill 利用了 prompt 已知的特点一次性并行处理所有 prompt token效率远高于逐个 Decode。Prefill vs Decode 的计算特点Prefill: 输入长度: prompt_len比如 1000 个 token 计算: 大矩阵乘法1000×4096 × 4096×4096 特点: compute-boundGPU 计算单元满载 时间: 和 prompt 长度成正比 Decode: 输入长度: 1 个 token 计算: 小向量乘矩阵1×4096 × 4096×4096 特点: memory-bound瓶颈在读取 KV Cache 的显存带宽 时间: 和已生成的 token 总数成正比KV Cache 越来越大这就是为什么长 prompt 场景下比如 RAG 检索后拼接几千 token 的上下文Prefill 阶段会明显卡顿一下TTFT 高然后才开始逐 token 输出TPOT 相对稳定。简单说Prefill “读完题目”Decode “逐字写答案”。
SPT-AKI存档编辑器:塔科夫单机版角色管理的终极解决方案 【免费下载链接】SPT-AKI-Profile-Editor Программа для редактирования профиля игрока на сервере SPT-AKI 项目地址: https://gitcode.com/gh_mirrors…
📅 2026/7/1 14:21:05
在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…
📅 2026/7/1 14:21:05
在数字化浪潮席卷全球的今天,网络安全与隐私保护已不再是少数人的专属需求,而是每一位网络用户必须面对的课题。无论是跨境电商卖家运营多店铺矩阵、社交媒体管理者维护品牌账号,还是数据分析师进行市场调研,指纹浏览器与代理IP的…
📅 2026/7/1 14:21:05
2026年,上海的产业招商战场,早已不是单纯“拼价格”的时代。企业主们面临的是更复杂的抉择:合规、空间、成本、配套,环环相扣。选错一处,轻则影响运营效率,重则延误产品上市窗口。但好在,总有那…
📅 2026/7/1 18:07:59
文章目录前言页面数据来源收货地址选择优惠券选择支付方式选择价格明细完整页面组装一些建议前言
订单确认页是下单流程的最后一道关卡,信息量大、交互多,但不算太难。核心就三块:地址、优惠券、价格明细。今天一次性把它搭完。 页面数据来源…
📅 2026/7/1 18:07:59
如何快速搭建Windows便携版Postman:终极API测试环境解决方案 【免费下载链接】postman-portable 🚀 Postman portable for Windows 项目地址: https://gitcode.com/gh_mirrors/po/postman-portable
你是否曾经因为需要在多台电脑之间切换工作而烦…
📅 2026/7/1 18:07:59
引言:为什么VMware上云迁移如此关键且充满挑战? 企业数字化转型的必然选择:从传统虚拟化到云原生的演进 VMware迁移的独特复杂性:架构、许可、网络、存储的深度耦合 “生死关”的定义:那些可能直接导致项目延期、超支甚至失败的关键决策点 本文目标:提供一份实战检查清单…
📅 2026/7/1 18:07:59
前言 日常工作中,需要通过使用代理下载第三方模块,完成项目的编译构建。由于很多模块在国外,而且它们受访问控制的程度不同,所以时不时地发生,下载超时,SSL握手失败等问题。很无奈,但必须面对和解决。
情况一:确认资源真实存在有效 这通常可以通过curl命令: 第一步:…
📅 2026/7/1 18:07:59
PVZ Toolkit:开启植物大战僵尸无限可能的三把钥匙 【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器 项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit
还在为植物大战僵尸的关卡难度而烦恼吗?想体验无限资源的畅快游戏乐趣吗&a…
📅 2026/7/1 18:05:58
目录
第一步:选对模板,省心一半
第二步:打开扫码点餐功能
开启功能按钮
桌台管理与桌码生成
第三步:个性化设计,打造品牌感
调整点餐页面
设置点餐规则 你还在让顾客站着排队点餐吗?2025年ÿ…
📅 2026/7/1 0:00:39
在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手,是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG(检索增强生成)系统,涉及文档解析、向量化、检索、大模型调用等多个环节,整…
📅 2026/7/1 0:00:39
FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE
你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…
📅 2026/7/1 0:00:39
6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…
📅 2026/6/30 10:04:37
引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…
📅 2026/7/1 15:35:39
目录
第一步:选对模板,省心一半
第二步:打开扫码点餐功能
开启功能按钮
桌台管理与桌码生成
第三步:个性化设计,打造品牌感
调整点餐页面
设置点餐规则 你还在让顾客站着排队点餐吗?2025年ÿ…
📅 2026/7/1 0:00:39
在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手,是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG(检索增强生成)系统,涉及文档解析、向量化、检索、大模型调用等多个环节,整…
📅 2026/7/1 0:00:39
FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE
你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…
📅 2026/7/1 0:00:39