登录社区云,与社区用户共同成长
邀请您加入社区
transformer在图像领域中的应用
Vit :图像分类 vision transformer
他的结构就是下边展示的这样 ,首先将图片进行分块,展开(或CNN进行特征映射,做线性变换)
在块序列首位置添加虚拟开始块,用作后续的图像分类特征
使用Transformer-Encoder进行块编码
虚拟块表示作为分类向量,通过MLP进行分类
虚拟快 (上图中的0)可以和所有的块进行交互,所以我们可以认为,它可以提取到所有的图片的语言信息,所以认为它是信息的代表,去进行分类。
技术共进,成长同行——讯飞AI开发者社区
更多推荐
资深工程师更爱AI?生成式AI在软件开发领域的“双面”影响深度解析
人类记忆与人工智能记忆:大语言模型时代的融合与发展
中国AI崛起:技术突破与应用落地的全景解读|附38页文件下载
扫一扫分享内容
所有评论(0)