注意力机制学习笔记

Ruochen Chen2026年3月14日大约 3 分钟

一、注意力机制是什么

注意力机制的核心是教模型**「抓重点」**，即有选择地关注信息中对当前任务最关键的部分。通过计算权重来判断信息重要性，权重越高表示该部分越关键。

示例：句子「上午我去书店买了一本书，然后下班之后晚上才有时间去读它」。若需回答「什么时候读书」，注意力机制会给「晚上」分配高权重，同时直接将「书」与「它」关联，忽略无关信息。

在 Transformer 出现前，语言处理以 RNN 为主，但 RNN 存在效率低和健忘问题。注意力机制通过四个颠覆性特点取代 RNN：

并行计算：一次性处理所有词，无需按顺序排队，训练速度大幅提升，尤其适合长文本
解决遗忘问题：通过语义相关性直接连接长距离信息（如「书」与「它」），信息不衰减
动态权重分配：同一词在不同句子中重要性不同
- 「苹果」在「吃苹果」中 → 水果（权重偏向「吃」）
- 「苹果」在「苹果公司发布新手机」中 → 科技企业（权重偏向「公司」「发布」）
可解释性：能可视化注意力分配过程，如翻译任务中原语言与目标语言的对齐、问答系统中关键词与答案的关联，便于调试和解释 AI 决策

输入序列 → 位置编码 → 生成 QKV 矩阵 → 计算注意力分数 → 多头注意力融合 → 输出

类比找书场景：

模型通过线性变换生成 QKV，用 Q 与所有 K 计算匹配度（注意力分数），再按分数对 V 加权求和，融合全局信息。

解决模型忽略词序问题，主流方式有两种：

注意力机制通过极简数学结构实现类人上下文感知能力，是大模型时代的重要起点。