深度学习中常用的技术：自注意力机制(Self-Attention)

GeekerNews
2023-03-17 13:13

自注意力机制（Self-Attention）是一种深度学习中常用的技术，主要用于处理序列数据，如自然语言处理中的文本。自注意力机制通过计算每个词与其他词之间的相似度来建立它们之间的关系，并根据这些关系来加权地计算每个词的表示。

在自注意力机制中，每个词的表示由三部分组成：查询向量（query vector）、键向量（key vector）和值向量（value vector）。对于每个词，查询向量和键向量可以通过线性变换得到，然后通过一个相似度函数（如点积或缩放点积）计算它们之间的相似度。接着，将这些相似度归一化得到注意力权重，再用这些权重对值向量进行加权求和，得到最终的表示。

自注意力机制的优点是能够捕捉序列中任意两个位置之间的关系，因此在序列建模任务中表现良好。它已被广泛应用于许多自然语言处理任务中，如机器翻译、文本生成和情感分析等。

给定一个输入序列 \(\mathbf{x} = [\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n]\)，其中 \(\mathbf{x}_i\) 是第 \(i\) 个位置的表示。则自注意力机制的计算可以表示为：

\(\mathrm{Attention}(\mathbf{x}) \)

\(= \mathrm{softmax}\left(\frac{\mathbf{x} \mathbf{W}_Q (\mathbf{x} \mathbf{W}_K)^T}{\sqrt{d_k}} \right) \mathbf{x} \mathbf{W}_V \)

\(= [\mathrm{softmax}(\frac{\mathbf{q}_1 \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_1, \mathrm{softmax}(\frac{\mathbf{q}_2 \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_2, \dots, \mathrm{softmax}(\frac{\mathbf{q}_n \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_n] \mathbf{W}_V,\)\)

其中，\(\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}V \in \mathbb{R}^{d{model} \times d_k}\) 是权重矩阵，用于将输入序列 \(\mathbf{x}\) 映射到查询向量 \(\mathbf{q}\)、键向量 \(\mathbf{k}\) 和值向量 \(\mathbf{v}\)。\(\mathrm{softmax}\) 函数表示对查询向量与键向量的相似度进行归一化，\(\sqrt{d_k}\) 是为了防止相似度过大导致梯度消失。最终得到加权和后再乘以权重矩阵 \(\mathbf{W}_V\) 得到自注意力机制的输出。

其中，\(d_{model}\) 表示输入序列 \(\mathbf{x}\) 和输出序列的维度，\(d_k\) 表示查询向量、键向量和值向量的维度。

优点：自注意力机制可以对输入序列中的任意位置进行建模，因此能够捕捉到输入序列中不同位置之间的依赖关系，具有很强的表达能力。可以同时考虑输入序列中所有位置的信息，因此能够在较小的计算量下获取全局信息。

缺点：自注意力机制的计算复杂度较高，时间复杂度为 \(O(n^2)\)，其中 \(n\) 是输入序列的长度。当序列较长时，计算复杂度会非常大，因此在实践中通常需要采用一些优化方法。对输入序列中的每个位置都要计算一个权重向量，因此在空间复杂度上也有一定的代价。

时间复杂度：自注意力机制的时间复杂度为 \(O(n^2 d)\)，其中 \(n\) 是输入序列的长度，\(d\) 是输入序列的嵌入维度。这是因为自注意力机制需要计算每个位置与其他位置之间的相似度，因此计算复杂度为 \(O(n^2 d)\)。注意到可以通过矩阵乘法优化实现，将时间复杂度降为 \(O(n d^2)\)。

空间复杂度：自注意力机制的空间复杂度为 \(O(n d)\)，其中 \(n\) 是输入序列的长度，\(d\) 是输入序列的嵌入维度。这是因为自注意力机制需要存储输入序列的嵌入表示，其大小为 \(n \times d\)，因此总的空间复杂度为 \(O(n d)\)。

来源：GeekerNews

作者：

编辑：leilei

图片来源:

本文链接: https://www.aiust.com/article/20230317/1524.html

深度学习

声明：AIUST.Com尊重行业规范，每篇文章都标有明确的作者和来源；文章为作者观点，不代表AIUST.Com立场；本平台所发布信息的内容和准确性由提供消息的原单位或组织机构独立承担完全责任。转自网络文章图片，请读者仅作参考，并自行核实相关内容。如有侵权，请联系我们删除！

资讯

原创

荐读

5G+AR加持晨星机器人掀起“智能化+人机交互”制造新趋势
2021世界制造业大会于11月22日在合肥落下帷幕。为期四天的大会中，作为向世界展示智能制造全面能力的窗口，联想展示了一系列让人惊喜的创新产品。现场展示的ThinkPad X1 Fold整体重量仅有1公斤，折叠起来之后的厚度大约为24毫米。当保持半开状态时，可以像拿本书一样握住，并且能同时运行两个应用程序。使用固定在中间的键盘之后，瞬间变...
智能手机竞争中失败，日本在联网汽车领域举步维艰
据外媒报道，在制造带有数字联网服务的汽车的竞争中，丰田汽车和日产汽车面临着被本土市场拖累的风险。与美国和欧洲的汽车消费者不同的是，日本消费者不愿意为这些联网功能和服务买单。结果就是：日本只有10%的汽车...
2020年河南省将推广应用3万台工业机器人
到2020年，推广应用3万台工业机器人，建设1000条智能生产线、300个智能车间、150个智能工厂……4月16日，在2018两岸智能装备制造郑州论坛上，河南省工信委发布了《2017年河南省智能制造白皮书》，河南智能制造的2020...

深度学习中常用的技术：自注意力机制(Self-Attention)

相关文章

资讯

原创

荐读

热门标签