MM-OPERA (NeurIPS 2025 Poster)
Benchmarking Open-ended Association Reasoning for Large Vision-Language Models,并引入 LLM-as-a-Judge 进行解释质量评估。
该成果是我在 HCPLab 阶段的重要研究实践之一。
我主要参与评测框架设计,聚焦解释的 rationality、stability 与 human alignment。
Benchmarking Open-ended Association Reasoning for Large Vision-Language Models,并引入 LLM-as-a-Judge 进行解释质量评估。
该成果是我在 HCPLab 阶段的重要研究实践之一。
我主要参与评测框架设计,聚焦解释的 rationality、stability 与 human alignment。