【数据集—benchmark】VLM多模态大模型评估指标benchmark汇总

从7个方面对20+LMM的指标进行汇总,分别为:

明月下

1317人浏览 · 2024-12-02 22:31:07

明月下 · 2024-12-02 22:31:07 发布

多模态评估基准

从7个方面对20+LMM的指标进行汇总,分别为:

图像描述:COCO、Nocaps、Flickr30K、TextCaps
图像问答:GQA、VQA、VQAv2、OK-VQA、SciQA-Img、VizWiz、IconQA、VSR、HM、TextVQA和OCR-VQA
视觉定位:RefCOCO、RefCOCO+、RefCOCOg和 GRIT
幻觉:PoPE、CHAIR
综合评估:MME、TouchStone、SEED-Bench、MM-Vet、MMB、NMB-CN、LLaVA-Bench
纯文本评估:MMLU、BBH、AGIEval、ARC-c和ARC-e
视频问答:MSRVIT-QA、MSVD-QA、TGIF-QA

主要的BenchMark

在这里插入图片描述

技术共进，成长同行——讯飞AI开发者社区

更多推荐

PHP与人工智能：结合案例与可能性探索

讯飞AI开发者社区

[论文阅读] 人工智能 + 软件工程 | 真实场景下GitHub Copilot生产力之谜：2年数据揭示客观提交无提升，开发者却直呼“好用”

讯飞AI开发者社区

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运