简单的说是为了让attention得到的权值更加均匀一点。

在数量级较大时,softmax将几乎全部的概率分布都分配给了最大值对应的标签。

详见 transformer中的attention为什么scaled

如果本身就想获得差距较大的attention值,可以不用scaled。例如在这个ner任务里面

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐