武汉大学张永军团队提出用于多任务遥感的大规模SAR-光学多分辨率对准数据集

分支机构节点

登录注册

当前位置： >首页 >测绘智库 >论文摘选

发布时间:2026-02-28 来源:遥感与深度学习浏览：684次

题目：SOMA-1M: A Large-Scale SAR-Optical Multi-resolution Alignment Dataset for Multi-Task Remote Sensing

论文： https://www.arxiv.org/abs/2602.05480

GitHub： https://github.com/PeihaoWu/SOMA-1M

年份： 2026

单位：武汉大学遥感信息工程学院；湖北珞珈实验室；自然资源部粤港澳大湾区自然资源数据协同应用技术创新中心

创新点

提出包含超过130万对像素级精确配准的SAR-光学图像对的SOMA-1M数据集，分辨率跨度从0.5米到10米，是目前遥感领域分辨率多样性最丰富的大规模配准数据集
设计了鲁棒的自动化配准框架，采用从粗到精的级联策略解决多分辨率条件下的高精度SAR-光学配准难题
建立了涵盖四个层次视觉任务（图像匹配、图像融合、SAR辅助云去除、跨模态转换）的综合评估基准，涉及30多种主流算法
整合Sentinel-1、PIESAT-1、Capella Space和Google Earth等多源影像，覆盖12种典型地物类别，实现全球多尺度覆盖并保留地理坐标元数据

背景

随着遥感大数据和人工智能的快速发展，地球观测任务正从单载荷监测向多源协同智能解译转变。光学遥感影像具有直观的语义纹理和光谱特征，但受大气散射、云遮挡和光照条件严重制约；而合成孔径雷达（SAR）具有全天候成像能力，能够穿透云雨并提供独特的几何结构和电磁特性信息。这种整合多模态影像互补优势的协同处理范式已成为突破单一模态局限、实现先进跨模态协同处理和智能解译的关键途径。

然而，现有公开数据集存在三个显著局限：空间分辨率单一且粗糙（大多局限于10米级）、数据规模不足（通常为数万对量级）、配准精度不足（由于SAR与光学传感器几何成像机制差异，在起伏地形区域存在显著像素偏差）。这些噪声数据严重阻碍了像素级任务（如图像融合和图像转换）的模型训练，成为制约多模态遥感处理算法跨尺度、跨场景泛化的核心瓶颈。

数据

SOMA-1M数据集

数据规模与分辨率

包含超过130万对经过严格像素级配准的SAR-光学图像对，图像规格为512×512像素
涵盖三个典型分辨率层级：低分辨率（10米）、中分辨率（3米）、高分辨率（0.5米）

数据来源与传感器

低分辨率：Sentinel-1 SAR影像（10米）配对Google Earth光学影像（8米），包含343个原始场景，生成357,563个有效图像块
中分辨率：PIESAT-1 SAR影像（3米）配对Google Earth光学影像（4米），包含628个原始场景，生成834,265个有效图像块
高分辨率：Capella Space SAR影像（0.5米）配对Google Earth光学影像（1米），包含495个原始场景，生成109,126个有效图像块

地理覆盖与场景多样性

数据采集覆盖全球1,466个地理位置
包含12种典型地物类别：水体、农田、植被、山地、村庄、沙漠、城市、工业区、桥梁、储油罐、船舶、飞机
涵盖城市区域、乡村地区、山地地形、河流流域和沙漠等代表性地物类型

附加数据子集

云模拟子集：在SOMA-0.1M的10万对无云光学影像上叠加不同密度和空间模式的模拟云，用于SAR辅助云去除任务
地理坐标元数据：保留每个图像块中心点的绝对经纬度坐标，形成结构化的"SAR-光学-地理位置"三元组

数据质量控制

配准精度验证

对随机抽取的10万对样本进行人工质量检查，合格率超过99.8%
即使在复杂地形和显著非线性几何畸变区域，图像对也表现出高度视觉一致性

数据特征分析

物理复杂度：人造地物（如城市和工业区）显示更高的中位熵值（均值>7.2）和边缘密度
语义相似性：城市区域、工业区和储油罐等人造对象之间显示高特征耦合（相似度>0.87），水体与工业区之间呈现强负相关（-0.96）

训练与测试集划分

SOMA-0.1M训练子集

从完整数据集中选取10万对代表性图像对用于模型训练或微调
Sentinel-1、PIESAT-1和Capella Space传感器的图像对各占三分之一

SOMA-Test测试集

针对低、中、高分辨率场景各独立采样1,000对图像，构建包含3,000对的基准测试集
确保跨不同空间分辨率和传感器特性的平衡客观评估

方法

自动化数据标注流程

本文设计了一个全自动的两阶段配准流程，以解决异构影像（SAR和光学）之间的跨模态配准挑战。该框架的核心在于利用MapGlue模型的跨模态匹配能力（该模型在12万对电子地图和光学影像数据集上预训练，实验表明其可有效应用于SAR-光学图像匹配）。

粗配准阶段

全局变换估计

首先将原始大尺寸影像下采样至1024×1024像素
应用MapGlue提取4,096个关键点进行全局匹配
RANSAC阈值设置为10像素以估计全局变换矩阵
将原始光学影像变换到原始SAR影像的坐标系统中

图像切片与质量控制

将配准后的大尺寸影像切片为1,024像素大小的图像块，步长为612像素
对每个图像块进行像素计数，若黑色区域超过50%则丢弃该图像块

精配准阶段

第一次精配准

在1024×1024图像块上再次执行匹配
将RANSAC阈值收紧至1.5像素以估计局部单应矩阵H
执行二次变换操作
从中心区域裁剪768×768图像块以消除边缘畸变和黑色区域

第二次精配准

在768×768图像块上重复相同的匹配和变换过程
从中心裁剪最终的512×512图像块作为确定样本
样本间最大重叠为100像素

自动化分类标注

视觉语言模型标注

利用视觉语言模型Qwen3-VL-8B执行自动化标注过程
遵循基于规则的语义层次：高价值目标（飞机、船舶、桥梁、储油罐）优先于人类聚落（城市、村庄、工业），后者优先于自然背景（山地、植被、农田、水体、沙漠）
采用精细化判别规则解决混合地物覆盖问题

多任务基准评估

图像匹配任务

真值计算

对SOMA-Test和OSdataset的图像对应用随机单应变换模拟真实几何畸变
旋转角度范围为[-108°, 108°]，平移范围为图像宽高的±30%，缩放因子为0.7-1.3
利用固定随机种子确保所有对比实验的输入数据一致性

评估指标

采用角点误差曲线下面积（AUC）作为定量评估指标
报告误差阈值为5像素、10像素和20像素时的AUC值（AUC@5、AUC@10、AUC@20）

图像融合任务

跨分辨率训练与测试

所有模型仅使用SOMA-0.1M的低分辨率子集（33,334对图像）进行训练
直接在多分辨率SOMA-Test集和OSdataset上进行评估
评估学习到的融合表示在不同空间分辨率和传感器特性数据上的鲁棒性

评估指标

采用四种常用的无参考融合指标：特征互信息（FMI）、互信息（MI）、视觉信息保真度（VIF）和基于梯度的融合质量（Q^{AB/F}）

SAR辅助云去除任务

合成数据生成

在SOMA-0.1M的10万张无云光学影像上叠加不同密度和空间模式的模拟云
生成包含SAR影像、含云光学影像、云掩膜和无云光学参考的配对样本

评估指标

峰值信噪比（PSNR）和结构相似性指数（SSIM）：评估像素和结构层面的相似性
光谱角度映射（SAM）：测量颜色空间中重建像素向量与参考像素向量的角度差异
平均绝对误差（MAE）：量化逐像素重建误差

SAR到光学转换任务

无监督与监督方法对比

无监督方法：CycleGAN、CUT、UNSB
监督方法：pix2pix、pix2pixHD、BBDM
利用SOMA-0.1M的像素级配准数据验证高质量配对数据相对于传统非配对数据集的优势

分辨率特定模型训练

针对0.5米、3米和10米子集分别训练独立模型
高分辨率SAR影像包含丰富的局部结构变化（几何散射效应如叠掩和双次反射），低分辨率影像表现为大尺度空间模式主导的平滑强度分布

结果与分析

实验结果表明，在SOMA-1M上进行监督训练显著提升了所有任务的性能，特别是多模态遥感图像匹配性能达到了当前最先进水平。跨分辨率分析揭示了不同任务对分辨率的敏感性梯度：图像匹配>图像转换>图像融合>云去除，这凸显了SOMA-1M多分辨率层次化系统的必要性，因为单尺度模型无法同时捕获细粒度几何细节和广域语义上下文。