机器学习与模式识别 第十六章 Transformers 考点压缩
📅 2026/7/5 14:27:42
👁️ 次浏览
第十六章Transformers — 知识点笔记综合来源Lecture 16 PDF68页、课堂笔记CSDN占位图16.1 从MLP到CNN到AttentionMLP的局限每像素独立参数→P2P^2P2参数量→参数爆炸固定输入大小→稍大图像需全新模型CNN的贡献与局限优势局限权重共享→参数高效局部感受野→高层才有全局上下文平移不变性归纳偏置卷积核感受野逐层增长→需很深支持可变输入尺寸核心需求需要一种能高效建模所有token之间关系的架构 →Attention机制16.2 Attention机制 ⭐⭐⭐从平均池化到加权平均平均池化YnXn1N∑iVi\mathbf{Y}_n \mathbf{X}_n \frac{1}{N}\sum_i \mathbf{V}_iYnXnN1∑iVi问题所有上下文同等重要→不相关token也是等权重Attention加权平均YnXn∑iαniVi,∑iαni1,αni≥0\mathbf{Y}_n \mathbf{X}_n \sum_i \alpha_{ni} \mathbf{V}_i, \quad \sum_i \alpha_{ni}1, \alpha_{ni}\geq 0YnXni∑αniVi,i∑αni1,αni≥0αni\alpha_{ni}αnitoken i对token n的注意力权重16.3 QKV与自注意力 ⭐⭐⭐三个投影矩阵矩阵公式含义V(Value)VXW(V)\mathbf{V} \mathbf{X}W^{(V)}VXW(V)提取的内容/上下文K(Key)KXW(K)\mathbf{K} \mathbf{X}W^{(K)}KXW(K)被查询的键Q(Query)QXW(Q)\mathbf{Q} \mathbf{X}W^{(Q)}QXW(Q)发起查询的查询为什么分开K和Q相关性关系不对称bank关注river但river不一定关注bank分离KQ允许非对称查询Scaled Dot-Product Attention ⭐ZQKT内积矩阵N×N\mathbf{Z} \mathbf{Q}\mathbf{K}^T \quad \text{内积矩阵$N\times N$}ZQKT内积矩阵N×NαSoftMax(ZDk)\boldsymbol{\alpha} \text{SoftMax}\left(\frac{\mathbf{Z}}{\sqrt{D_k}}\right)αSoftMax(DkZ)Attention(K,Q,V)αV\text{Attention}(\mathbf{K},\mathbf{Q},\mathbf{V}) \boldsymbol{\alpha}\mathbf{V}Attention(K,Q,V)αVScaling因子Dk\sqrt{D_k}Dk防止内积方差过大→Softmax梯度消失自注意力特性Attention层无参数仅依赖K,Q,V等变性置换输入token→输出同样置换O(N2)O(N^2)O(N2)复杂度NNNtoken数16.4 多头注意力 ⭐⭐Multi-Head AttentionMHAHhAttention(Kh,Qh,Vh),AConcat[H1,…,HH]W(O)H_h \text{Attention}(\mathbf{K}_h, \mathbf{Q}_h, \mathbf{V}_h), \quad \mathbf{A} \text{Concat}[H_1,\ldots,H_H]W^{(O)}HhAttention(Kh,Qh,Vh),AConcat[H1,…,HH]W(O)HHH个并行注意力头→不同头捕捉不同关系每头通常用更小的DvD/HD_v D/HDvD/H变体类型K,VQ效率MHA每头独立每头独立最低GQA分组查询每头组共享每头独立中等MQA多查询全部共享每头独立最高大多数现代模型使用GQA效率与表达力的折中16.5 Transformer层 ⭐X → [Multi-Head Self-Attention → Residual → LayerNorm → MLP(2层) → Residual → LayerNorm] → Output为什么需要MLPAttention输出αV\boldsymbol{\alpha}\mathbf{V}αV输入的线性组合MLP引入非线性激活→增强表达能力每个token独立通过MLP→token级前馈关键设计残差连接→梯度直通Layer Norm每token独立归一化→支持并行参数共享同层token间共享跨层不共享支持可变token数attention无固定尺寸要求16.6 位置编码 ⭐⭐为什么需要Self-Attention是置换等变的→不感知token顺序文本/图像中位置信息至关重要两种方法方法原理优/缺点Learned每个位置学一个ri\mathbf{r}_iriGPT-1表达力强需预设最大N相对距离难表达Sinusoidalsin/cos\sin/\cossin/cos波组合编码任意长度可查询相对位置旋转矩阵特性Sinusoidal编码rn,i{sin(n/Li/D)i evencos(n/L(i−1)/D)i oddr_{n,i} \begin{cases} \sin(n/L^{i/D}) i\text{ even} \\ \cos(n/L^{(i-1)/D}) i\text{ odd} \end{cases}rn,i{sin(n/Li/D)cos(n/L(i−1)/D)ieveniodd类似位置的连续二进制编码存在旋转矩阵RΔ\mathbf{R}_\DeltaRΔrn−ΔRΔrn\mathbf{r}_{n-\Delta} \mathbf{R}_\Delta \mathbf{r}_nrn−ΔRΔrn内积随距离衰减→天然的相对位置感知位置编码的使用x~nxnrn加法非拼接\tilde{\mathbf{x}}_n \mathbf{x}_n \mathbf{r}_n \quad \text{加法非拼接}x~nxnrn加法非拼接高维空间中xn\mathbf{x}_nxn和rn\mathbf{r}_nrn近似正交→不破坏原始语义16.7 Encoder Transformer架构标准视觉/语言嵌入任务输入→Token Embeddings Positional Encoding重复LLL层Transformer Block输出→Pooling/特殊[CLS]token→下游任务特殊Token技巧添加可学习的[CLS] token→经过所有层后→其输出整句/图的语义表示笔记中的图片索引序号图片内容描述来源位置图1MLP vs CNN vs Transformer对比Lecture 16 第7-24页图2QKV计算示意图Lecture 16 第39-40页图3内积矩阵Z和注意力权重αLecture 16 第43-45页图4MHA/MQA/GQA对比Lecture 16 第50页图5Transformer层结构Lecture 16 第51页图6Sinusoidal位置编码热力图Lecture 16 第64页笔记整理时间2026年6月30日
Node.js 图片压缩服务:小产品也要管住队列和失败
一、图片压缩不是一个同步接口能解决的任务
独立产品经常需要上传头像、封面、作品图或导出预览。图片压缩看起来简单:接收文件,调用 sharp,返回 URL。真正上线后会发现࿰…
📅 2026/7/5 14:27:42
下载地址MySQL :: Download MySQL Community Server 自己使用远程传输工具上传
可以将包传至家目录,也可以直接wget
创建用户组目录
mkdir -p /mysql/app
[rootRockymysql ~]# cd /mysql/app/ [rootRockymysql app]# mv ~/mysql-8.4.10-linux-glibc2.28-x86_6…
📅 2026/7/5 14:25:42
引言
ClamAV 是一款广受欢迎的开源(GPLv2)反病毒引擎,用于检测木马、病毒、恶意软件及其他恶意威胁。它由 Cisco Talos 维护和开发,提供了一套灵活的工具集,尤其在邮件网关扫描、Web 扫描和端点安全领域得到了广泛应用…
📅 2026/7/5 14:25:42
RVC变声器终极指南:10分钟训练高质量AI音色模型的完整教程 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrieval-based-Voice-Con…
📅 2026/7/5 16:22:00
RedisInsight终极指南:免费开源Redis可视化工具完整安装使用教程 【免费下载链接】RedisInsight Redis GUI by Redis 项目地址: https://gitcode.com/GitHub_Trending/re/RedisInsight
RedisInsight是Redis官方推出的免费开源可视化工具,专为简化…
📅 2026/7/5 16:22:00
文件完整性验证技术下的hashdeep实现:如何解决跨平台哈希计算与审计问题 【免费下载链接】hashdeep 项目地址: https://gitcode.com/gh_mirrors/ha/hashdeep
在数字取证、数据完整性验证和安全审计领域,文件哈希计算工具扮演着至关重要的角色。h…
📅 2026/7/5 16:22:00
如何快速掌握MCP Toolbox:数据库操作的终极开源解决方案 【免费下载链接】mcp-toolbox MCP Toolbox for Databases is an open source MCP server for databases. 项目地址: https://gitcode.com/GitHub_Trending/ge/mcp-toolbox
还在为复杂的数据库连接而烦…
📅 2026/7/5 16:22:00
Min浏览器深度解析:如何用极简设计重塑现代浏览体验 【免费下载链接】min A fast, minimal browser that protects your privacy 项目地址: https://gitcode.com/gh_mirrors/mi/min
在浏览器日益臃肿的今天,你是否渴望一款真正回归本质的浏览工具…
📅 2026/7/5 16:22:00
10分钟掌握医学AI神器:如何让AI医生看懂你的胸部X光片? 【免费下载链接】MedRAX MedRAX: Medical Reasoning Agent for Chest X-ray - ICML 2025 项目地址: https://gitcode.com/gh_mirrors/me/MedRAX
还在为复杂的医学影像诊断而困惑吗ÿ…
📅 2026/7/5 16:20:00
1. 项目背景与核心需求 在嵌入式系统开发中,快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下,系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…
📅 2026/7/5 0:01:51
1. 工业电流环信号传输的基础认知在工业自动化领域,4-20mA电流环传输技术已经持续服役超过半个世纪。这种看似简单的信号传输方式之所以能经久不衰,核心在于其独特的抗干扰能力——电流信号在长距离传输时几乎不受线路电阻和电压波动的影响。我曾在化工厂…
📅 2026/7/5 0:01:51
最近在项目里尝试用 YOLO 做目标检测,从环境搭建到模型训练,再到推理部署,整个过程踩了不少坑。网上的资料虽然多,但要么版本老旧,要么步骤零散不成体系,对于刚入门的新手来说,很容易卡在某个环…
📅 2026/7/5 0:01:51
1. 项目背景与核心需求 在嵌入式系统开发中,快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下,系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…
📅 2026/7/5 0:01:51
1. 工业电流环信号传输的基础认知在工业自动化领域,4-20mA电流环传输技术已经持续服役超过半个世纪。这种看似简单的信号传输方式之所以能经久不衰,核心在于其独特的抗干扰能力——电流信号在长距离传输时几乎不受线路电阻和电压波动的影响。我曾在化工厂…
📅 2026/7/5 0:01:51
最近在项目里尝试用 YOLO 做目标检测,从环境搭建到模型训练,再到推理部署,整个过程踩了不少坑。网上的资料虽然多,但要么版本老旧,要么步骤零散不成体系,对于刚入门的新手来说,很容易卡在某个环…
📅 2026/7/5 0:01:51
目录
第一步:选对模板,省心一半
第二步:打开扫码点餐功能
开启功能按钮
桌台管理与桌码生成
第三步:个性化设计,打造品牌感
调整点餐页面
设置点餐规则 你还在让顾客站着排队点餐吗?2025年ÿ…
📅 2026/7/5 6:01:04
在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手,是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG(检索增强生成)系统,涉及文档解析、向量化、检索、大模型调用等多个环节,整…
📅 2026/7/5 6:01:04
FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE
你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…
📅 2026/7/4 17:36:47