注意力机制学习笔记
2026年3月14日大约 3 分钟
注意力机制学习笔记
一、注意力机制是什么
注意力机制的核心是教模型**「抓重点」**,即有选择地关注信息中对当前任务最关键的部分。通过计算权重来判断信息重要性,权重越高表示该部分越关键。
与传统模型的区别
| 传统模型(如 RNN) | 注意力机制 |
|---|---|
| 线性处理,从左到右死记硬背 | 不依赖词语位置远近 |
| 易丢失长距离信息 | 通过语义相关性「跨距离连线」 |
| 信息易遗忘 | 解决信息遗忘问题 |
示例:句子「上午我去书店买了一本书,然后下班之后晚上才有时间去读它」。若需回答「什么时候读书」,注意力机制会给「晚上」分配高权重,同时直接将「书」与「它」关联,忽略无关信息。
二、为什么需要注意力机制
在 Transformer 出现前,语言处理以 RNN 为主,但 RNN 存在效率低和健忘问题。注意力机制通过四个颠覆性特点取代 RNN:
- 并行计算:一次性处理所有词,无需按顺序排队,训练速度大幅提升,尤其适合长文本
- 解决遗忘问题:通过语义相关性直接连接长距离信息(如「书」与「它」),信息不衰减
- 动态权重分配:同一词在不同句子中重要性不同
- 「苹果」在「吃苹果」中 → 水果(权重偏向「吃」)
- 「苹果」在「苹果公司发布新手机」中 → 科技企业(权重偏向「公司」「发布」)
- 可解释性:能可视化注意力分配过程,如翻译任务中原语言与目标语言的对齐、问答系统中关键词与答案的关联,便于调试和解释 AI 决策
三、注意力机制的工作流程
核心流程
输入序列 → 位置编码 → 生成 QKV 矩阵 → 计算注意力分数 → 多头注意力融合 → 输出QKV 矩阵
类比找书场景:
| 符号 | 含义 | 类比 |
|---|---|---|
| Query(Q) | 需求 | 「找量子物理入门书」 |
| Key(K) | 标签 | 「物理分类」 |
| Value(V) | 内容 | 书的具体信息 |
模型通过线性变换生成 QKV,用 Q 与所有 K 计算匹配度(注意力分数),再按分数对 V 加权求和,融合全局信息。
位置编码
解决模型忽略词序问题,主流方式有两种:
- Transformer 原始方案:正弦余弦函数生成绝对周期性位置信息
- 旋转位置编码(RoPE):将位置信息编码到向量旋转角度,处理超长文本更优,泛化能力强
多头注意力融合
- 单头局限:可能局限于单一模式(如语法或语义)
- 多头设计:将 QKV 切分为多个头,在不同子空间独立计算(如关注语法、情感、实体等),拼接结果后通过线性层融合
- 效果:提升模型表达能力(原始 Transformer 默认 8 头,具体关注模式由数据驱动自动学习)
总结
注意力机制通过极简数学结构实现类人上下文感知能力,是大模型时代的重要起点。
