NAACL 2025 2023

MLLM-Bench: Evaluating Multi-modal LLMs Using GPT-4V

Wentao Ge*, Shunian Chen*, Guiming Hardy Chen*, Junying Chen, Zhihong Chen, Shuo Yan, Chenghao Zhu, Ziyue Lin, Wenya Xie, Xidong Wang, Xiang Wan, Benyou Wang, et al.

Abstract

A benchmark for evaluating multimodal LLMs using GPT-4V as the evaluation backbone.

Resources

Paper Code