发表论文

我的学术论文和研究成果。

2025

TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

Shunian Chen*, Hejin Huang*, Yexin Liu*, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Benyou Wang

arXiv preprint

[论文][代码]

MTalk-Bench: Evaluating Speech-to-Speech Models in Multi-turn Dialogues via Arena-style and Rubrics Protocol

Yuhao Du*, Qiuyi Huang*, Guo Zhu, Zhanchen Dai, Shunian Chen, Qiming Zhu, Le Pan, Minghao Chen, Yuhao Zhang, Benyou Wang, Haizhou Li

arXiv preprint

[论文][代码]

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

Rongsheng Wang*, Junying Chen*, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang

arXiv preprint

[论文][代码]

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

Junying Chen*, Zhenyang Cai*, Pengcheng Chen*, Shunian Chen*, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang

arXiv preprint

[论文][代码]

FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Shunian Chen*, Xinyuan Xie*, Zheshu Chen*, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang

arXiv preprint

[论文][代码]

2024

BlenderLLM: Training Large Language Models for Computer-Aided Design with Self-improvement

Yuhao Du, Shunian Chen, Wenbo Zan, Peizhao Li, Mingxuan Wang, Dingjie Song, Bo Li, Yan Hu, Benyou Wang

arXiv preprint

[论文][代码]

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Dingjie Song, Sicheng Lai, Mingxuan Wang, Shunian Chen, Lichao Sun, Benyou Wang

EMNLP 2025 Findings

[论文]

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture

Xidong Wang*, Dingjie Song*, Shunian Chen, Chen Zhang, Benyou Wang

EMNLP 2025 Findings

[论文][代码]

Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs

Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael X. Guan, Benyou Wang

COLING 2025

[论文]

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Jimin Huang, Mingyang Xiao, Dajin Li, Zhenyu Jiang, Yuzhe Yang, Yuhao Zhang, Leyi Qian, Yixuan Wang, Xin Peng, Shunian Chen, et al.

arXiv preprint

[论文]

HuatuoGPT-Vision: Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

EMNLP 2024

[论文][代码]

MileBench: Benchmarking MLLMs in Long Context

Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang

COLM 2024

[论文][代码]

ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models

Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan, Benyou Wang

arXiv preprint

[论文][代码]

Humans or LLMs as the Judge? A Study on Judgement Biases

Guiming Hardy Chen*, Shunian Chen*, Ziche Liu, Feng Jiang, Benyou Wang

EMNLP 2024

[论文]

2023

VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment

Lei Li*, Zhihui Xie*, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong, Qi Liu

EMNLP 2024

[论文][代码]

MLLM-Bench: Evaluating Multi-modal LLMs Using GPT-4V

Wentao Ge*, Shunian Chen*, Guiming Hardy Chen*, Junying Chen, Zhihong Chen, Shuo Yan, Chenghao Zhu, Ziyue Lin, Wenya Xie, Xidong Wang, Xiang Wan, Benyou Wang, et al.

NAACL 2025

[论文][代码]

HuatuoGPT-II: One-Stage Training for Medical Adaption of LLMs

Junying Chen, Xidong Wang, Ke Ji, Anningzhe Gao, Feng Jiang, Shunian Chen, Hongbo Zhang, Dingjie Song, Wenya Xie, Chuyi Kong, Jianquan Li, Xiang Wan, Haizhou Li, Benyou Wang

COLM 2024

[论文][代码]

Huatuo-26M: A Large-scale Chinese Medical QA Dataset

Xidong Wang*, Jianquan Li*, Shunian Chen*, Yuxuan Zhu, Xiangbo Wu, Zhiyi Zhang, Xiaolong Xu, Junying Chen, Jie Fu, Xiang Wan, Benyou Wang

NAACL 2025 Findings

[论文][代码]