自注意力中的不同的掩码介绍以及他们是如何工作的?

在研究自注意力时，有很多的名词需要我们着重的关注，比如填充掩码，前瞻掩码等等，但网上没有太多注意力掩码的教程和它是如何工作的信息，另外还有以下的细节需要详细的解释：

为什么要对多个层应用注意力掩码？、
为什么不沿键和查询应用注意力掩码？
键、查询和值权重是否混淆了原始矩阵的序列顺序？

所以本篇文章将通过写出矩阵来查看这些问题的细节。这样可以对掩码的工作原理有更好的了解。除此以外还可以连接到线性层是如何跨二维工作的，这样可以解决上面第三点的疑问。

问题定义

让我们从一个有 4 个单词的矩阵 X 开始。当这些词被转换成它们的令牌嵌入，每个令牌的嵌入大小将是 3 个值。例如下面是我们的句子：

“a b c D”

现在让我们把这些词变成令牌。

向量a b c D各有3个分量，这个序列本质上是由4个令牌符号组成的。每个令牌是3个值的向量。我们把这些符号变成一个矩阵X。

X是由向量a、b、c和D组成的4 × 3矩阵这是我们想要用自注意力来转化的矩阵。

完整文章：

https://avoid.overfit.cn/post/1042640faa8249da92e405db1cbc3738

原文地址：http://www.cnblogs.com/deephub/p/16784160.html

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！ 2. 分享目的仅供大家学习和交流，请务用于商业用途! 3. 如果你也有好源码或者教程，可以到用户中心发布，分享有积分奖励和额外收入！ 4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！ 5. 如有链接无法下载、失效或广告，请联系管理员处理！ 6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！ 7. 如遇到加密压缩包，默认解压密码为"gltf",如遇到无法解压的请联系管理员！ 8. 因为资源和程序源码均为可复制品，所以不支持任何理由的退款兑现，请斟酌后支付下载声明：如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性

自注意力中的不同的掩码介绍以及他们是如何工作的?

问题定义

排行榜展示

3D打印机glb模型下载-机械glb模型

树glb模型下载-树2

水稻glb模型下载-水稻1

变电箱1glb模型下载-机械glb模型

树glb模型下载-树3

模型

3D打印机glb模型下载-机械glb模型

变电箱1glb模型下载-机械glb模型

水稻glb模型下载-水稻1

树glb模型下载-树3

树glb模型下载-树1

树glb模型下载-树2

自注意力中的不同的掩码介绍以及他们是如何工作的?

问题定义

排行榜展示

标签

模型