2024级研究生孙朗和鼎新博士后付荣昊共同完成的论文被ECCV 2026接收

发布日期：2026-07-03 发布人：点击量：

澳门博彩 2024级研究生孙朗、鼎新博士后付荣昊（通信作者）共同完成的论文“GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision”被 The 19th European Conference on Computer Vision（ECCV 2026）接收。该论文的指导教师为杨博教授。

现有遥感视觉语言模型虽然在遥感影像理解任务中取得了显著进展，但大多依赖最终答案进行训练和评估，缺乏对中间推理过程的细粒度监督。在复杂遥感场景中，模型即使得到正确答案，也可能在推理过程中生成缺少视觉依据的错误描述，出现目标位置、数量或属性判断上的幻觉问题。针对这一问题，该文提出了一种面向遥感多模态推理的过程监督强化学习框架 GeoSolver，并构建了首个大规模 token 级遥感过程监督数据集 Geo-PRM-2M。在此基础上，研究团队训练了面向遥感场景的过程奖励模型 GeoPRM，使模型能够对推理链中的关键步骤进行细粒度验证，从而识别逻辑错误和视觉依据不一致的问题。

GeoSolver 采用“过程监督奖励建模 + 树搜索强化学习”的训练方式：首先通过熵引导的蒙特卡洛树搜索自动挖掘模型推理过程中的关键分歧与潜在错误，并结合视觉幻觉注入策略构造正负推理样本；随后训练 token 级过程奖励模型 GeoPRM，对推理过程中的每一步进行可信度评估；最后引入 Process-Aware Tree-GRPO 强化学习算法，将树结构探索与过程级奖励信号相结合，重点约束中间推理过程与视觉证据之间的一致性。实验结果表明，GeoSolver-9B 在目标计数、目标检测、视觉定位、场景分类、遥感视觉问答和图像描述等多项遥感基准任务上均取得了优于现有模型的表现。同时，GeoPRM 还可以作为通用地理空间验证器，在测试阶段通过 Best-of-N 和 Beam Search 等策略进一步提升模型性能，并能够迁移增强通用视觉语言模型，有助于提升遥感多模态解译结果的可靠性、可解释性和可验证性。

ECCV 与 CVPR、ICCV 并称为计算机视觉领域三大国际会议，每两年举办一次。作为计算机视觉与人工智能领域具有重要影响力的国际学术会议，ECCV长期关注计算机视觉、深度学习及其交叉应用方向的前沿研究，在国际学术界具有广泛影响力。ECCV 2026 将于 2026 年 9 月 8 日至 12 日在瑞典马尔默召开。

下一篇：澳门博彩与技术专家讲座系列报道(柳阳)