找回密码
 会员注册
查看: 32|回复: 0

多模态模型评测神器OpenCompassMMBench了解一下!

[复制链接]

2万

主题

0

回帖

6万

积分

超级版主

积分
64454
发表于 2024-9-11 14:49:37 | 显示全部楼层 |阅读模式
MMBench是什么呢?MMBench是OpenCompass研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约3000道单项选择题,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度。为什么要推出MMBench?伴随着大语言模型的发展,一系列多模态模型也在短时间内如雨后春笋般涌现了出来。但是,如何来全面地评估一个多模态模型仍然是一个比较棘手的问题。当前模型测试的方式均存在一些固有的问题,主要分为以下三类:评测问题多样性不足这种方式能呈现模型在特定问题上的回答。然而,由于评测问题的数量有限,多样性不足,往往难以全面反映模型的真实性能。主观评测认知偏差这种方式通过人为构造一些prompt,以人来比较各个模型在这些prompt上面的回答效果。但这种方式除了评测问题数量少和缺乏多样性的问题,由于人具有认知偏差,所以论文中的评测结果往往很难复现,同时也存在不能无法全方位评估的问题。传统客观评测集测试传统的评测方法主要是看模型在像回答问题、给图片写说明这样的任务上做得好不好。它有一些缺点,比如不能很详细地评估模型的能力,这存在假阳性的问题。为了解决这些问题,OpenCompass提出了MMBench,用来评估大型多模态模型。这个方法主要有两个部分:  自上而下的能力维度设计,根据定义的能力维度构造了一个评测数据集  引入ChatGPT,以及提出了CircularEval的评测方式,使得评测的结果更加稳定基于感知与推理将评估维度逐级细分数据集构造OpenCompass研究团队自上而下定义了三级能力维度(L1-L3):第一级维度(L1)包含感知与推理两项能力第二级能力维度(L2)在第一级的能力维度下进行拓展,包含6项能力第三级能力维度(L3)进一步在第二级能力维度的基础上进行拓展,包含20个能力维度。各级能力维度的包含关系如下图所示:针对每一项L3能力,OpenCompass研究团队进行了相关问题的收集,为了保证评估的结果更稳定全面,针对每一项L3能力都收集了超过75题,具体的数量分布如上图所示,括号里面显示了该项能力维度下有多少道题目。题目展示为了简化评测流程,所有的题目都被设计为了单项选择形式,下图展示了MMBench评测数据集中的一些题目:评测方法ChatGPT辅助评测现在的开源模型在按照指示来执行任务方面还不够完善。为了解决这个问题,OpenCompass研究团队提出用ChatGPT来帮忙评测模型。具体流程如下:模型的回答中直接提到了某个选项的名字,就直接把这个选项当作模型的答案。模型的回答里没有直接提到选项的名字,就用ChatGPT进行辅助。ChatGPT会从选项里找出和模型回答最相似的那个,然后就把这个选项当作模型的答案。模型回答的内容和所有选项都不匹配,就用一个特殊的标签“X”来表示模型答不上来这个问题。虽然这种情况在实际评测中很少出现,但这样设计可以让评测流程更加完整。这样基于ChatGPT匹配模型输出与选项的方法,即使模型未按照指令输出也可准确匹配至最合理选项。CircularEval为了尽可能消除随机性以及让评测结果更robust,研究团队提出了CircularEval的评测方法。CircularEval的主要思想就是将问题选项按环状进行重排,然后将每次重排之后的选项提供给多模态模型,当且仅当每次模型都回答正确了,才认为模型成功回答该题,保证了结果的可复现性。具体流程如下:同时,CircularEval相比常规评测(VanillaEval),CircularEval下模型的性能出现了显著的降低,更好地体现出了多模态模型的真实性能目前,MMBench已经被HuggingFace收录于HuggingFaceM4,欢迎大家在MMBench上测试。Paper链接:https://arxiv.org/pdf/2307.06281.pdfProject链接:https://github.com/open-compass/mmbench/Leaderboard链接:https://mmbench.opencompass.org.cn/leaderboard
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-28 08:14 , Processed in 0.459841 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表