首个开源多模态化学大模型ChemVLM-从化学图片到化学文本信息
本文提出了ChemVLM,这是首个面向化学领域的开源多模态大型语言模型,旨在解决化学图像理解与文本分析之间的不兼容问题。该模型基于VIT-MLP-LLM架构,采用ChemLLM-20B作为基础大型模型,使模型在理解和利用化学文本知识方面具备了强大的能力。
转自:
第一个化学领域的开源多模态大语言模型:通过ChemVLM架起视觉与化学知识的桥梁-CSDN博客
文章来源:
https://arxiv.org/pdf/2408.07246
模型来源:
https://huggingface.co/AI4Chem/ChemVLM-26B
Code:
https://github.com/AI4Chem/ChemVlm
本文提出了ChemVLM,这是首个面向化学领域的开源多模态大型语言模型,旨在解决化学图像理解与文本分析之间的不兼容问题。该模型基于VIT-MLP-LLM架构,采用ChemLLM-20B作为基础大型模型,使模型在理解和利用化学文本知识方面具备了强大的能力。
此外,还采用了InternVIT-6B作为强大的图像编码器。从化学领域精心挑选了高质量数据,包括分子、反应式以及化学考试数据,并将这些数据编译成一个双语多模态问答数据集。
本文在多个开源基准测试集和三个自定义评估集上测试了模型的性能。实验结果表明,本文的模型表现优异,在六个相关任务中的五个任务中均达到了最先进水平。
ChemVLM 的整体架构和两阶段训练。ChemVLM 结合了先进的视觉转换器和富含化学知识的大型语言的优势,确保了多模态化学知识理解和推理的强大能力
ChemVLM 数据处理流程
关于ChemVLM 介绍文章的总结,请参考Phoenixtree_DongZhao的精彩总结:
第一个化学领域的开源多模态大语言模型:通过ChemVLM架起视觉与化学知识的桥梁-CSDN博客
更多推荐
所有评论(0)