别让布尔值毁了你的 Transformer

Apr 10, 2026 1800 字 11 分钟

最近的工作重构了一个基于 Transformer 的扩散模型，我加了一个自认为非常完美的特性：通过 Attention Mask 来控制信息流的单向传递。
代码写得很顺，跑起来也没报错。直到 CVPR 因为性能不足被拒之后，我重新进行 Code Review 时，Claude 敏锐地指出了一个潜藏极深的 Bug，这个 Attention Mask，在不同的底层框架下，要么完全反转了我的意图，要么在数学上完全是一个灾难。

什么是 Attention ？

在深入 Bug 之前，我们先简单温习一下注意力机制（Attention）。

在 Transformer 中，Attention 本质上是在计算 Token 之间的关联度。对于一个序列，计算 Query 和 Key 的点积，经 Softmax 归一化后，得到权重矩阵，再用这个权重去加权 Value。

用经典的缩放点积注意力（Scaled Dot-Product Attention，SDPA）公式表示就是：

\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

显然，在这个机制下，序列中的每一个 Token 都可以看到并综合其他所有 Token 的信息。

为什么要用 Attention Mask ？

~~虽然全局注意力很强大，但很多时候我们不希望某些 Token 看到另外一些 Token。~~

(↑其实这么说可以辩经很长时间，后期我也做了一些实验，至少在视觉领域，我认为模型参数如此之大的现在，Transformer 训练之后完全是知道哪些 Token 需要自己去看，哪些 Token 不用去看。但是这句话本身我不认为是错误的，仍然可以作为一个角度的 Motivation。)

最典型的例子是语言模型中的因果掩码（Causal Mask），未来的词不能被提前看到。而在我的场景中，我输入了图像 Token 和作为提示的 Hint Token。我的需求是：实施单向信息流。我希望图像 Token 能看到 Hint，但 Hint 不能反过来被图像 Token 影响。

为了实现这一点，我们就需要在计算 Softmax 之前，强行干预那个 $QK^T$ 的得分矩阵，这就是 Attention Mask 的作用。

我踩过的坑：致命的 `bool` 掩码

为了实现屏蔽，我非常直观地写出了第一版代码（错误示范）：

# 错误示范：直觉上全设为 False，把需要屏蔽的地方设为 True
attn_mask = torch.zeros(N, num_heads, total_tokens, total_tokens, dtype=torch.bool)

# 假设我把需要屏蔽（mask out）的区域设为 True
attn_mask[:, :, img_tokens:, :img_tokens] = True

这太对了啊，逻辑非常符合人类直觉：True 代表遮挡住，False 代表不遮挡。

但现实很骨感，这短短两行代码，隐藏了两个致命的逻辑炸弹：

陷阱一：PyTorch SDPA 中彻底反转的语义

如果你使用了 PyTorch 2.0+ 引入的硬件优化算子 F.scaled_dot_product_attention（即开启了 Fused Attention），官方文档对 bool 类型 Mask 的定义是：

True 表示允许参与注意力计算（Allow），False 表示忽略（Ignore）。

也就是说，在 SDPA 的眼里，我的逻辑被完全反转了！我唯一想屏蔽掉的地方，恰恰成了模型唯一关注的地方；而我默认设为、False 想保留的正常信息流，全被模型忽略了。

陷阱二：Timm 非 Fused 路径下的倒反天罡

如果因为某些原因（比如显存不够、环境问题）没有触发 Fused Attention，底层的 timm 库会退回到传统的手动计算路径。

在早期的 timm 版本中，没有对布尔值做特殊处理，它的底层计算逻辑基本就是直接相加： scores = scores + attn_mask

很可惜，True 参与数值计算时等于 1.0，False 等于 0.0。

这意味着我本想彻底阻断这些位置的注意力，结果代码不仅没有屏蔽它们，反而给这些本该被屏蔽的 Attention 得分加上了 1.0 的额外权重！这变相鼓励了模型去关注那些本不该看的信息。

正确的做法：拥抱 Float Additive Mask

布尔类型的掩码在不同的 API 和库版本中语义飘忽不定，极其容易翻车。怎么写才能保证在任何框架、任何硬件加速路径下都绝对安全？

答案是：回归数学本质，使用 Float 加法掩码（Float Additive Mask）。

在 Softmax 函数中，想让一个位置的权重趋近于 0，我们需要让它的输入趋近于负无穷。因此，完美的掩码应该是：

允许参与计算的位置：加上 0.0（不改变原得分）。
需要屏蔽的位置：加上 -inf（负无穷大，Softmax 后变为 0）。

于是，重构后的正确代码如下：

# 正确做法：初始化为 float32 的 0.0，代表全部允许
attn_mask = torch.zeros(
    N, num_heads, total_tokens, total_tokens, device=x.device, dtype=torch.float32 
)

# 将需要屏蔽的地方（比如单向信息流限制区）设为负无穷大
attn_mask[:, :, img_tokens:, :img_tokens] = float('-inf')

# 搭配 masked_fill_ 使用也非常优雅
attn_mask.masked_fill_(dropout_mask, float('-inf'))

这种写法的优点有：

跨框架兼容：无论是早期的 timm 还是最新的 PyTorch scaled_dot_product_attention，都完美原生支持 Float Additive Mask。
绝对无歧义：数学逻辑是没有二义性的，你永远不用再去查文档确认 True 到底代表“保留”还是“丢弃”。
不影响 Fused 加速：传入 Float 类型的掩码同样可以被底层优化算子（如 FlashAttention）识别并高效处理，不会带来额外的性能负担。

写在最后

在深度学习的工程实践中，直觉往往是不可靠的。一个简单的 bool 值，毁掉了我的论文，好在很快找到原因并且改投了。希望这次别遇到奇怪的审稿人，这篇工作的完成度还是蛮高的。

如果你也在手搓带有复杂 Attention 逻辑的模型，强烈建议：抛弃 Boolean Mask，全面拥抱 Float Mask。这不仅是跨版本的兼容之选，更是保证模型数学严谨性的最佳实践。

感谢认真看每一行代码的研究者，也希望这次踩坑记录能帮你避开这个隐秘的陷阱。