transformer在图像领域中的应用

临街的小孩 · 2022-10-08 23:33:50 发布

Vit :图像分类 vision transformer

他的结构就是下边展示的这样，首先将图片进行分块，展开（或CNN进行特征映射，做线性变换）

在块序列首位置添加虚拟开始块，用作后续的图像分类特征

使用Transformer-Encoder进行块编码

虚拟块表示作为分类向量，通过MLP进行分类

虚拟快（上图中的0）可以和所有的块进行交互，所以我们可以认为，它可以提取到所有的图片的语言信息，所以认为它是信息的代表，去进行分类。

更多推荐

资深工程师更爱AI？生成式AI在软件开发领域的“双面”影响深度解析

人类记忆与人工智能记忆：大语言模型时代的融合与发展

中国AI崛起：技术突破与应用落地的全景解读｜附38页文件下载

查看更多评论

已为社区贡献2条内容