embedding size 是一个超参数 后续swim transformer使用的超参数

patch merging 下采样

        patch 融合 缩小分辨率 增大感受野

原始trm使用正余弦进行编码 

但是 原始的trm 和 后来的vit 使用的绝对的位置信息

 怎么融入到相对位置信息里面去

 展平:

 

移动窗口注意力机制:

这样不好

 

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐