一、llama模型的结构是怎么样的?

采用了transfomer中的decoder,其中7b版本的结构如下:
在这里插入图片描述
13B结构如下:
在这里插入图片描述
GPU显存使用情况:
在这里插入图片描述

二、llama模型中的词典为什么会有大量的token有ord(‘▁’)=9601 的字符呢?

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐