深度学习中常用的技术:自注意力机制(Self-Attention)
- GeekerNews
- 2023-03-17 13:13
自注意力机制(Self-Attention)是一种深度学习中常用的技术,主要用于处理序列数据,如自然语言处理中的文本。自注意力机制通过计算每个词与其他词之间的相似度来建立它们之间的关系,并根据这些关系来加权地计算每个词的表示。
在自注意力机制中,每个词的表示由三部分组成:查询向量(query vector)、键向量(key vector)和值向量(value vector)。对于每个词,查询向量和键向量可以通过线性变换得到,然后通过一个相似度函数(如点积或缩放点积)计算它们之间的相似度。接着,将这些相似度归一化得到注意力权重,再用这些权重对值向量进行加权求和,得到最终的表示。
自注意力机制的优点是能够捕捉序列中任意两个位置之间的关系,因此在序列建模任务中表现良好。它已被广泛应用于许多自然语言处理任务中,如机器翻译、文本生成和情感分析等。
给定一个输入序列 \(\mathbf{x} = [\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n]\),其中 \(\mathbf{x}_i\) 是第 \(i\) 个位置的表示。则自注意力机制的计算可以表示为:
\(\mathrm{Attention}(\mathbf{x}) \)
\(= \mathrm{softmax}\left(\frac{\mathbf{x} \mathbf{W}_Q (\mathbf{x} \mathbf{W}_K)^T}{\sqrt{d_k}} \right) \mathbf{x} \mathbf{W}_V \)
\(= [\mathrm{softmax}(\frac{\mathbf{q}_1 \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_1, \mathrm{softmax}(\frac{\mathbf{q}_2 \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_2, \dots, \mathrm{softmax}(\frac{\mathbf{q}_n \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_n] \mathbf{W}_V,\)\)
其中,\(\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}V \in \mathbb{R}^{d{model} \times d_k}\) 是权重矩阵,用于将输入序列 \(\mathbf{x}\) 映射到查询向量 \(\mathbf{q}\)、键向量 \(\mathbf{k}\) 和值向量 \(\mathbf{v}\)。\(\mathrm{softmax}\) 函数表示对查询向量与键向量的相似度进行归一化,\(\sqrt{d_k}\) 是为了防止相似度过大导致梯度消失。最终得到加权和后再乘以权重矩阵 \(\mathbf{W}_V\) 得到自注意力机制的输出。
其中,\(d_{model}\) 表示输入序列 \(\mathbf{x}\) 和输出序列的维度,\(d_k\) 表示查询向量、键向量和值向量的维度。
优点:自注意力机制可以对输入序列中的任意位置进行建模,因此能够捕捉到输入序列中不同位置之间的依赖关系,具有很强的表达能力。可以同时考虑输入序列中所有位置的信息,因此能够在较小的计算量下获取全局信息。
缺点:自注意力机制的计算复杂度较高,时间复杂度为 \(O(n^2)\),其中 \(n\) 是输入序列的长度。当序列较长时,计算复杂度会非常大,因此在实践中通常需要采用一些优化方法。对输入序列中的每个位置都要计算一个权重向量,因此在空间复杂度上也有一定的代价。
时间复杂度:自注意力机制的时间复杂度为 \(O(n^2 d)\),其中 \(n\) 是输入序列的长度,\(d\) 是输入序列的嵌入维度。这是因为自注意力机制需要计算每个位置与其他位置之间的相似度,因此计算复杂度为 \(O(n^2 d)\)。注意到可以通过矩阵乘法优化实现,将时间复杂度降为 \(O(n d^2)\)。
空间复杂度:自注意力机制的空间复杂度为 \(O(n d)\),其中 \(n\) 是输入序列的长度,\(d\) 是输入序列的嵌入维度。这是因为自注意力机制需要存储输入序列的嵌入表示,其大小为 \(n \times d\),因此总的空间复杂度为 \(O(n d)\)。
- 深度学习
相关文章
资讯
- 1周前
“马”上有Token,联通云“万亿”免费送!——联通云×OpenClaw+DeepSeek,零成本解锁灵活办公新方式
- 1周前
开源鸿蒙项目群技术指导委员会2026年新春贺词
- 2周前
沈寓实博士当选美国国家人工智能科学院院士
- 2周前
“人工智能+生物制造”落地样本:北电数智激活AI制药新动能
- 3周前
黄仁勋接见女性创业者葛巾:硬科技中的“她力量”获全球认可
- 3周前
Robotiq 推出适用于 2F 自适应夹爪的触觉传感指尖, 为具身智能 (Physical AI) 注入“触觉”能力
- 1个月前
布咳乐F6高性能罐式雾化器发布,应对儿童雾化治疗长期痛点
- 1个月前
2025 AI原生编程挑战赛收官,5500+战队攻关AIOps工程化闭环
- 1个月前
零犀科技发布汽车销售智能体 AI从工具转变为数字劳动力
- 1个月前
“全球大模型第一股”来了!智谱港交所敲钟,市值528亿港元
- 1个月前
拍出硬核创意 第四届贸泽电子短视频大赛震撼开启
- 1个月前
能文能武!智元首个机器人艺人天团亮相湖南卫视跨年演唱会
- 2025-12-30
解读2025 AI趋势品消费:AI手机降门槛、AI学习机成学伴、AI智能屏焕新生、AI眼镜渐破圈
- 2025-12-29
当二十四史书院遇上数字人:NuwaAI以AI赋能甘坑古镇文旅新体验
- 2025-12-29
AI营销新范式:破解内容营销困局,七大场景赋能N3级增长跃迁
原创
荐读
-
5G+AR加持 晨星机器人掀起“智能化+人机交互”制造新趋势
2021世界制造业大会于11月22日在合肥落下帷幕。为期四天的大会中,作为向世界展示智能制造全面能力的窗口,联想展示了一系列让人惊喜的创新产品。现场展示的ThinkPad X1 Fold整体重量仅有1公斤,折叠起来之后的厚度大约为24毫米。当保持半开状态时,可以像拿本书一样握住,并且能同时运行两个应用程序。使用固定在中间的键盘之后,瞬间变...
-
智能手机竞争中失败,日本在联网汽车领域举步维艰
据外媒报道,在制造带有数字联网服务的汽车的竞争中,丰田汽车和日产汽车面临着被本土市场拖累的风险。与美国和欧洲的汽车消费者不同的是,日本消费者不愿意为这些联网功能和服务买单。结果就是:日本只有10%的汽车...
-
2020年河南省将推广应用3万台工业机器人
到2020年,推广应用3万台工业机器人,建设1000条智能生产线、300个智能车间、150个智能工厂……4月16日,在2018两岸智能装备制造郑州论坛上,河南省工信委发布了《2017年河南省智能制造白皮书》,河南智能制造的2020...










