MM-OPERA (NeurIPS 2025 Poster)

PAPER 2025/10/31 NeurIPS 2025 Poster

Benchmarking Open-ended Association Reasoning for Large Vision-Language Models,并引入 LLM-as-a-Judge 进行解释质量评估。

VLM ReasoningLLM-as-a-JudgeBenchmark

该成果是我在 HCPLab 阶段的重要研究实践之一。
我主要参与评测框架设计,聚焦解释的 rationality、stability 与 human alignment。

关联路线图节点

关联博客