transformer中的attention为什么scaled
transformer中的attention为什么scaled简单的说是为了上attention得到的权值更加均匀一点。在数量级较大时,softmax将几乎全部的概率分布都分配给了最大值对应的标签。详见 transformer中的attention为什么scaled如果本身就想获得差距较大的attention值,可以不用scaled。例如在这个ner任务里面...
·
简单的说是为了让attention得到的权值更加均匀一点。
在数量级较大时,softmax将几乎全部的概率分布都分配给了最大值对应的标签。
详见 transformer中的attention为什么scaled
如果本身就想获得差距较大的attention值,可以不用scaled。例如在这个ner任务里面
更多推荐
所有评论(0)