COLM 2024 2024

MileBench: Benchmarking MLLMs in Long Context

Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang

Abstract

A comprehensive benchmark for evaluating multimodal large language models in long context scenarios.