张继贤研究员：地理空间智能技术体系初探与实践

分支机构节点

登录注册

当前位置： >首页 >测绘智库 >论文摘选

发布时间:2026-04-29 来源:安徽省发展改革委浏览：593次

张继贤1,3, 顾海燕2, 张鹤1,4, 赵俊红2, 徐颖1，许少鑫1

（1. 莫干山地信实验室浙江德清 313200；

2. 中国测绘科学研究院北京 100830；

3. 国家基础地理信息中心北京 100830；

4. 国家测绘产品质量检验测试中心北京 100830）

摘要

人工智能（AI）、大数据、物联网等技术正在推动地理空间智能化发展，本文介绍了地理空间智能的定义与内涵，围绕“感知生成、认知表达、预测决策 ”三大环节梳理了技术发展现状，提出了“数据-模型-智能体-平台”全链路的地理空间智能技术体系架构，并以“莫干·玄衍”地理空间大模型为核心，结合遥感变化检测、实景三维更新和城市事件感知等典型场景，展示了地理空间智能示范应用效果。最后，本文展望了地理空间智能向通用化、可信化、生态化发展的未来方向，旨在推动地理空间智能技术体系的构建，实现对地理空间的智能感知、认知、推理与决策，解决复杂地理空间问题。

关键词

地理空间智能；“莫干·玄衍”地理空间大模型；感知生成；认知表达；预测决策

项目来源

浙江省2025年度尖兵项目：三维时空场景下的空天信息精准提取关键技术及应用示范（2025C01073）。

作者简介

张继贤，研究员，现主要从事摄影测量与遥感、国土遥感测图与监测等领域的研究。

通信作者：顾海燕，研究员。

正文

空间智能的目标是构建具备生成性、多模态性与交互性的世界模型，使人工智能（ArtificialIn-telligence，AI）系统能够在几何、物理与语义层面理解并创造可交互的三维世界，实现从感知到推理再到行动的闭环，成为人类认知物理世界的基础架构［1］。李德仁院士提出时空智能学，旨在构建空天地海一体化感知网络，实现对地球系统、环境过程及人类活动的全域感知、动态认知与智能决策，回答“何时（When）、何地（Where）、何物（What Object）、何变（What Change）、何因（Why）、何为（What Reaction）（6W）”的核心问题，达成“在正确的时间、向正确的人、在正确的地点、提供正确的信息（4R）”的服务目标，支撑人与自然协同可持续发展［2］。

上述理论分别从通用AI与地球系统观测双重视角，为空间智能奠定了理论基础。在地理信息领域，地理空间智能是以地理空间信息为对象，以AI方法为驱动，以人类智能为目标，将智能思维模式融入地理空间的表征与理解之中，旨在模拟并实现人类对地理空间的深刻感知、认知、推理与决策，解决复杂地理空间问题。地理空间智能涵盖感知生成、认知表达与推理决策三大环节，在感知生成环节，通过空天地海网等技术感知并生成地理空间数据；在认知表达环节，综合运用地理空间分析手段，实现对三维地理空间的认知与表达；在推理决策环节，面向自然资源治理、生态环境保护、低空经济等领域需求进行深度推理分析，为地理空间问题的解决提供科学决策。三大环节相互关联，共同构成了地理空间智能的完整框架，助力高效地解决复杂地理空间问题。地理空间智能具有以下四项核心特征：一是以类人智能为发展目标，促进智能系统在复杂地理空间任务中的认知与决策能力趋近或达到人类专家水平；二是强调空间维度、时间维度与语义维度的深度融合，构建“时空语义一体化”的综合分析范式；三是采用知识、数据与模型协同驱动的混合智能计算模式，实现多源信息的高效处理与知识发现；四是具备强时空认知与预测能力，能够基于历史演化规律与实时态势感知，对地理空间现象的演变趋势进行精准预测与模拟推演。

本文在分析地理空间智能内涵与特征的基础上，从感知生成、认知表达、智能决策三个方面分析了发展现状，提出了“数据-模型-智能体-服务平台”全链路的地理空间智能技术体系架构，开展了遥感变化检测、实景三维更新和城市事件感知三大示范应用，旨在推动地理空间智能技术体系的构建，赋能时空智能发展。

1 发展现状

1.1 感知生成

地理空间智能通常以感知生成为起点，面向具备空间位置（Where）、地物属性（What）、几何结构（Shape）与时相过程（When）的多源观测数据，自动完成地理实体识别、空间格局表征与变化过程刻画，并生成可用于分析与决策的地理信息产品，为后续的认知表达与预测推理提供可信的数据底座与语义支撑。与一般视觉感知任务不同，地理空间感知生成对象具有明确的地理语义约束与空间关系结构，突出感知手段的协同性、生成结果的可定位性、空间关联性与时空一致性，以满足测绘地理信息生产与精细化治理对感知的实时性、产品的可用性要求［1］。从数据载体看，地理空间感知以光学遥感影像、合成孔径雷达数据、激光雷达点云、矢量地理要素、地形高程模型、倾斜摄影测量数据、众源地理信息、铁塔视频等为感知基础［3］，围绕地物分类、语义分割、目标检测与定位、变化检测、三维重建等任务展开［4］。其方法经历了由人工特征与机器学习主导，向深度学习驱动的数据表征学习以及端到端生成方式转变［5］，并向结构化、立体化、统一化方向发展。

1）从像素判别走向结构化表达

在同源遥感影像条件下，研究重点已从地表覆盖/土地利用分类扩展到更贴近地理信息生产的对象级与实例级表达，一方面针对建筑物、道路网络、水系等基础要素，输出矢量化边界、网络结构与属性字段，以支撑地图更新、事件诊断与治理巡查［6］；另一方面针对飞机、舰船等关键目标，强调定位、计数、状态刻画与时序跟踪，服务于应急监测快速响应［7］。该方向的关键不只是分割精度，而是把生成结果嵌入到地理场景中，例如道路提取需要保持连通与拓扑一致，建筑物提取需要满足几何规则与地图综合约束，变化检测需要输出可解释的变化类型与置信度，并能与行政区、地块单元等管理对象对齐。

2）从二维几何表达走向立体化表达

研究重点已由根据几何特征结合传统分类方法，逐步转向深度语义理解，并从局部对象识别进一步拓展到更大尺度的场景理解与全局建模。近年来，领域内出现了将更高效的序列建模结构引入点云/遥感语义理解的趋势，以提升大范围场景表达效率与跨尺度建模能力［8］。相关研究一方面通过语义/实例分割实现三维要素识别与结构化提取，另一方面结合多视影像重建与点云融合，推动成果由形状重建转向面向应用的场景产品。对于地理空间任务而言，生成三维成果的价值不仅在于重建形状，更在于将建筑高度、体量、遮挡、可视域等信息与二维地物要素、交通网络与城市功能格局联动，形成可用于分析与决策的可计算场景。随着更高效的序列建模结构与大尺度预训练范式进入遥感理解，模型在超大范围场景的跨尺度与长距离表征依赖建模能力的持续增强，从而提升大范围三维场景表达的效率与稳定性。

3）从局部融合走向统一嵌入场表征

为克服单一数据源在观测机理、分辨率与时间覆盖上的局限，异源时空融合已成为重要增长点。异源影像匹配、跨模态对齐与联合变化解释是融合的前置难题，其受辐射差异、几何差异与时相差异的叠加影响［9］。近年来，深度学习为克服不同模态数据之间的融合带来了契机，通过孪生/多分支结构、对比学习与跨模态注意力等机制，实现将配准与匹配从依赖手工特征选择过程转向表征空间中的语义，从而支持更可靠的变化检测、目标确认与场景理解［5］。更值得强调的是，该主线正在被地理空间基础模型重塑。以Google DeepMind提出的AlphaEarth Foundations为代表，模型尝试把光学、合成孔径雷达等多源观测及其时空测量统一到一个高密度的地理嵌入表示中，用嵌入场的形式提供可跨区域、跨传感器迁移的通用表征，进而高效支撑全球尺度的制图与监测［10］。

1.2 认知表达

地理空间认知与表达强调在“人-机-地”耦合环境下，将地理实体的本体与属性、实体间的空间关系与演化规律，采用符号、语言与地图等形式进行抽象、表达与可计算化。其目标不只是描述空间，而是将场景中的结构转化为可推理、可解释、可操作的知识，从而支撑空间分析与决策。近两年，该方向与大模型技术快速耦合，逐步形成了面向地理任务的认知与表达大模型体系，并呈现出三条并行演进的主线，即文本认知大模型、多模态认知大模型与地图表达大模型［11］。

1）文本认知大模型，从“理解与问答”走向“工具调用与智能体化执行”

文本认知大模型以通用语言模型为底座，通过利用不同应用领域的提示词或指令，对基础通用大模型进行训练，提升其对地理概念、空间语义与GIS知识的理解与整合能力。例如，GeoGPT将大型语言模型（Large Language Models，LLMs）的固有语义理解能力与GIS社区中的成熟工具结合，可以从GIS工具中自主选择、分析、生成结果［12］。BB-GeoGPT通过加入三种不同的地理空间训练语料库，实现在GIS领域的理解能力提升［13］。GeoForge允许语言模型生成解决方案图，成功构造了一个基于大语言模型的新型地理空间分析平台，能够处理复杂的地理空间任务和查询［14］。Geo-GPT-2/3/4［15］通过地理坐标融合、社交媒体与公众情绪信息引入等途径，支撑灾后评估、影响研判与响应筛选。文本认知大模型正从“回答型系统”转向“行动型系统”。GeoFactory［16］构建了面向地学任务的系统化能力增强框架，通过任务化评测与针对性增强策略，提升大模型完成地学判断推理类问题的可靠性。GeoAgent［17］以智能体方式理解空间查询意图，并综合碎片化报告生成可交互的地理知识空间与地理空间智能结果，体现出从文本驱动地学推理走向生成可操作地理成果的趋势。

2）多模态认知大模型，从“图文对齐”迈向“时空过程建模与跨模态推理”

多模态认知大模型在训练与推理过程中引入多时相序列遥感影像、轨迹与地图要素等数据，获得对空间结构与动态过程更一致的表征，并支持文本之外的多类型输出。GeoLLM［18］和UrbanCLIP［19］融合全球地图数据库OpenStreetMap中的辅助地图数据，可以达到对输入的不同地理坐标进行不同类型地理空间信息分析的目的，在评估人口密度、资产财富、平均收入、城市功能等任务中表现优异，并展现出一定的跨城市泛化能力。Prithvi-EO-2.0［20］以大规模全球多时相样本进行预训练，并引入时间与位置嵌入功能，突出其多时相变化建模与通用迁移能力，为灾害风险评估、环境变化监测等过程性任务提供更稳定的基础表征。TrajGDM［21］创新性地融合所收集的行人运动轨迹以及车辆行驶轨迹，基于扩散模型学习大量数据中的通用行人、车辆移动模式，有效进行人口流动分析，对地理资源利用、城市结构布局起到重要作用。GeoSEE［22］从卫星影像数据中提取有效的地理空间信息，结合GIS相关文本信息，着力于在全球范围内持续监测可持续发展，成功地在衡量广泛地理区域社会经济状况领域取得优秀的成果。

3）地图表达大模型，从“要素识别辅助制图”走向“设计-生成-评估闭环”

地图表达研究重点已从深度学习辅助的制图要素识别，迈向以大模型为核心的地图“设计-生成-评估”闭环体系，并出现四类更具代表性的进展：其一是利用深层卷积模型自动提取地图和影像上的多类别地物目标、地图符号和文本标注信息［23］；其二是利用深度学习方法精确标注当代地理要素在历史扫描地图上的空间位置［24］；其三是利用生成对抗网络模型进行地图样式的风格迁移学习、地形图的阴影自动渲染，并利用合成信息来改进制图风格［25］；其四是AI与地图设计部分实现了制图综合自动化，比如建筑物多边形的简化与聚合、道路网的线简化与连通合并等。MapGPT［25］将大语言模型与制图工具耦合，使模型能够理解需求并自动调用专业工具生成地图，提供了用户友好的地图制图体验。CartoAgent［26］以多模态大模型驱动多智能体协作，强调在不改变矢量数据以保证空间正确性的前提下进行样式表设计与风格迁移，并配套评价机制，使生成式AI更贴近真实地图生产的设计决策环节。ChatMap［27］则探索将大型语言模型与复杂的制图数据集整合在一起，在资源有限条件下构建可用的地图语言表达框架。此外，类脑计算和脑机接口等新兴技术的发展，使得地图学与神经科学的深度结合成为新的发展途径，利用认知神经科学的方法和成果分析地图，同样促进了地图和地理信息领域与AI的融合与深度应用［28］。

1.3 智能决策

地理空间智能时空预测决策可概括为三个相互衔接的环节，分别为问题识别（认清事件全过程、明确问题与决策目标）、问题诊断（依据一般原则构建行动方案并评估潜在风险，形成对策）、行动选择（从备选方案中筛选最优方案并建立反馈系统，形成闭环迭代）。在这一框架下，当前研究与应用正由“以预测为终点”转向“以决策闭环为牵引”，即从输出预测结果扩展为面向治理目标的持续优化过程。

1）问题识别，正在从“事后描述”走向“过程刻画与目标牵引”

当前，地理空间智能技术已广泛应用于城市规划、环境监测、灾害预警等领域，但在真实应用场景中仍面临多源数据难融合、模型精度与泛化不足、实时响应成本高等瓶颈。由此，问题识别不仅体现在“识别发生了什么”，更在于对事件的时空演化链条与关键驱动因素进行结构化表达，进而将治理诉求转化为可操作的决策目标与约束条件。围绕这一目标，当前研究主要关注提升预测与决策的精准度与实时性，并在可控成本的前提下拓展应用场景的广度与深度，使地理空间智能预测决策的链条能够在不同区域与不同任务中复用［29］。ChangeFormer［30］采用分层Transformer编码器架构进行遥感影像变化检测，强调采用聚焦双时相图像的独立特征提取差异的机制，在保持地理空间分辨率和精度的前提下自动识别地表覆盖突变区域，并配套轻量级解码器实现多尺度变化特征的融合，使AI系统具备对地理演化过程的细粒度实时刻画能力；STG-Mamba［31］基于选择性状态空间模型构建时空图学习框架，强调通过时空联合编码捕获城市级动态事件的长程依赖关系，并配套卡尔曼滤波图神经网络，在交通预测中进行高效推理与不确定性量化，使模型输出能够直接支撑后续的因果追溯与态势研判；OmniSat［32］构建多模态融合的Transformer架构，通过跨模态注意力机制整合光学、SAR与激光雷达数据，实现从单一观测到全景态势感知的跃迁，并配套自监督预训练策略，实现在资源受限条件下为复杂场景下的问题界定提供结构化输入。

2）问题诊断，技术创新与数据治理并进，强调风险与可执行性

在问题诊断阶段，研究呈现出“技术创新+数据治理”并行推进的特征。一方面，问题诊断融合AI与大数据方法，构建面向复杂时空过程的预测模型与推理框架，在提高精度的同时兼顾效率与可部署性［33］；另一方面，问题诊断以数据治理为基础，强化数据的质量、一致性、安全性与可追溯性，推动数据共享与开放，为模型训练、推理与更新提供稳定可信的输入。在此基础上，智能决策可通过对候选行动方案进行模拟评估与风险预估，形成可比较、可解释的行动选择依据，使预测与决策能够自然过渡到可执行的策略建议［34］。EarthFormer［35］基于立方体注意力机制构建地球系统预测模型，引入时空分离的注意力与全局向量连接策略，在对气象、降水等长时序数据进行精准预测的同时，输出多尺度的预测置信区间与异常警报，并配套解释性的分析模块，为诊断决策提供量化依据；PredRNN-V2［36］在原始PredRNN基础上引入记忆解耦损失函数，构建了改进的时空循环神经网络，通过防止记忆单元学习冗余特征来提升长期预测的稳定性，并配以反向计划采样策略，使模型在灾害演化趋势的预测中保持诊断逻辑的严谨性；STGNN-Reasoner［37］融合行业规则与图神经网络，构建可解释的诊断推理引擎，采用时空图注意力机制，对多源异构数据进行异常定位与因果路径挖掘，并配以知识约束，实现在数据缺失场景下维持推理的可追溯性。

3）行动选择，正在从“最优预测”走向“最优策略”，以反馈系统驱动迭代

行动选择方面发展的趋势是筛选并应用最优技术方案，例如将高精度定位技术、遥感和GIS一体化分析技术与行业知识规则协同，提升时空预测决策的智能化水平［38］。同时，通过建立反馈系统对策略执行效果进行实时监测与评估，及时调整参数、模型与规则，实现“监测-评估-更新-再决策”的持续循环，从而在动态环境中维持决策的有效性与可持续性。PPO-Rescue［39］基于近端策略优化算法与深度残差网络构建了应急响应决策模型，强调在动态灾害环境中，通过试错学习来优化救援物资分配与路径规划，并配套与算法无关的收敛终止准则，使AI系统能够在实时反馈中持续逼近最优决策边界并保证样本效率；NSGA-III-Land［40］采用基于超立方体的多目标进化算法处理土地利用规划中碳排放、生态服务与经济效益目标的冲突，通过帕累托前沿生成与理想解相似度排序法，为决策者提供兼顾多维度效益的多元化策略选项及其分析；AI-Digital Twin［41］构建了AI赋能的城市数字孪生仿真平台，集成物理引擎、地球系统基础模型与智能体模型，对候选策略进行高分辨率预演评估与风险推演，并建立“监测-评估-更新”的闭环反馈机制，使所选择策略在实施前即可验证其可持续性与适应性。

2 技术体系架构

地理空间智能技术体系以“数据-模型-智能体”为主线（图1），通过数据层、模型层、智能体层、服务平台四大板块的分层解耦与协同联动，形成从底层数据资源组织、核心智能能力构建到上层应用服务的完整闭环。数据层是核心要素和基础资源，为模型提供了高质量的语料；模型层作为智能中枢，通过地理空间大模型与专业技能模型的融合，提供统一的认知、推理与生成能力；智能体层作为应用承载，采用多智能体协同机制，将模型能力转化为可执行、可演进的业务流程。整体架构强调数据驱动与模型、智能并重，通过引入大模型与智能体技术，实现地理空间信息处理从传统规则驱动向认知驱动与决策驱动的转型。

图片.png

图1 地理空间智能技术体系架构

2.1 数据层

与传统地理信息系统主要依赖结构化空间数据不同，地理空间智能面向的是一个高度复杂、多源异构和持续演化的数据环境。该数据环境包括多源异构的“空（低空无人机、飞艇、有人机）、天（卫星遥感）、地（物联网传感器、摄像头）、管（政务审批与执法数据）、网（社交媒体、开放街道地图等众源信息）”数据。这些数据在时空尺度、语义层次与表达形式上存在显著差异，但共同构成了对真实世界的多维度数字映射。

数据层的核心目标并非简单的数据汇聚与存储，而是通过时空数据体系化治理，将分散、异构的原始数据，转化为基于一致空间基准、统一语义表达和可计算特性的高质量数据资产，为上层模型训练、推理分析与智能决策提供可靠的数据基础。时空数据体系化治理的本质在于实现从数据资源向数据资产的转化，通过统一的数据目录与分层管理机制，对原始观测数据、基础地理底图及专题应用产品进行结构化组织，明确数据来源、时效、精度与适用范围，从而提升数据可发现性与可复用性。在数据类型层面，数据治理的对象不仅涵盖传统二维影像与矢量数据，还扩展至视频、点云、三维模型等复杂模态的数据，通过统一的质量控制标准与标签规范，保障不同模态数据在空间参考和语义表达上的一致性。在存储与计算层面，数据层采用湖仓一体的技术架构，将高扩展性的对象存储与高性能分析引擎相结合，在支持海量数据低成本存储的同时，实现高效查询与并行计算。结合云原生资源调度机制，数据层可根据任务复杂度与实时性需求动态分配计算资源，提升整体运行效率。本层进一步通过引入动静态数据融合机制，实现对实时感知数据与历史基准数据的协同管理，确保数据体系的时效性与连续性。

在算法趋同、算力普惠的竞争环境中，数据质量和规模已成为决定模型性能的关键。据此，体系需要构建高质量时空数据集，如图2所示。本文依托多源异构数据的体系化整合，建立统一的数据资源框架，对遥感影像、三维模型、矢量数据、视频流、物联网感知等数据进行层次化组织，实现从原始观测数据到应用级数据产品的系统化。样本库动态构建是核心，该库以空间坐标和时间为特征，构建统一基准与规范格式的样本数据集，促进数据、模型与业务的互联互通。结合最新的基于SAM大模型的提示学习样本精化技术，样本库动态构建不仅能够提高标注速度，而且通过人工微调环节，保证了标注结果（尤其是边界）的精准性。样本库动态构建利用自然地表分类体系与影像表征学习，对样本进行知识加工与指令工程处理，并通过动静融合机制实时更新数据，从而剔除冗余噪声并增强标注精度。

图片2.png

图2 高质量时空数据集建设的方法体系

此外，时空专题知识库涉及诸如地理、遥感、专家、业务、众源等领域知识，这些知识中蕴含着丰富的信息及复杂的关系，对这些领域知识进行特征建模，将原始数据空间映射到新的特征空间，使得在新的特征空间中，能够更好地学习数据中蕴藏的规律。

2.2 模型层

模型是地理空间智能技术体系的智能中枢，其目标是构建具备空间认知、语义理解与决策推理能力的统一模型。与面向单一任务的传统遥感解译模型或空间分析模型不同，该模型层强调跨模态统一表征与多任务泛化能力。地理空间大模型和时空专业技能库构成了混合智能中枢，这是整个体系的核心引擎。地理空间大模型通过深度学习技术，实现对海量时空数据的智能分析和认知；时空专业技能库则封装丰富的专业分析工具和方法，两者的结合将大大提升系统的智能化水平和专业化程度。

模型层构建的首要挑战是多源数据在表达形式和语义结构上的高度异质性。为此，本文引入多源数据归一化技术，将光学影像、合成孔径雷达数据及行业文本数据等映射至统一的特征空间，降低不同传感器与模态数据之间的语义差异。在此基础上，模型通过地理空间词元化技术，将连续的时空要素离散化为携带空间位置、时间属性与语义信息的基本单元，使模型能够显式地建模表达地理对象及其关系。其次，模型通过显式空间关系表征机制，采用引入神经网络等结构化学习方法，对距离衰减、拓扑邻接和空间异质性等地理规律进行建模，从而弥补传统深度学习模型在空间推理能力上的不足。此外，结合时空序列建模与跨尺度推理技术，模型能够对城市演化、环境变化及灾害过程进行动态预测，为地理决策提供定量化支持。依据地理空间场景的实际需求，本文构建了“莫干·玄衍”地理空间大模型，它是一种面向行业应用的千亿参数级多模态地理空间模型，其主要的技术架构如图3所示。该地理空间大模型具有以下六大技术特色：1）基于认知-专域分层架构的任务分解技术，构建控制型大模型与专用型大模型协同机制，实现复杂时空业务的智能解耦与并行处理；2）构建了多模态感知的模型匹配技术，实现文本指令、图像特征等异构数据的语义理解与场景画像，提升了顾及场景模态语义的时空任务处理的适应性与精准度；3）建立了基于反馈驱动的调度模型持续进化机制，通过构建专家模型评估反馈、调度策略优化、效果验证的闭环迭代体系，实现调度大模型的自适应学习与持续优化；4）提出了图像切片原型学习与像素重建自监督融合的预训练方法，确保遥感图像同时具备细粒度语义特征与良好语义区分特性，显著提升了各类遥感下游任务完成的效果；5）提出了基于稀疏视角照片的生成式三维建模技术，实现对精细化单体建筑与高保真三维场景的兼顾，建模效率大幅提升；6）构建了基于海量多模态时空知识工程+全链路超融合时空专业技能的可控时空业务工具链，打造高可用、高效能的地理空间大模型。目前，“莫干·玄衍”地理空间大模型已经实现遥感视觉感知、三维智能生成、时空查询分析、地图智能识别、专业知识问答、复杂报告生成、任务编排调度、专业工具调用八大核心功能。

图片3.png

图3 “莫干·玄衍”地理空间大模型技术架构图

2.3 智能体层

智能体层是连接模型能力与实际业务场景的关键，旨在弥合通用模型能力与具体业务流程应用之间的鸿沟。地理空间智能体是一种具备感知、思考、行动、进化能力的智能代理系统，它可以自主进行理解、逻辑推理与任务执行。智能体通过自然语言理解、多模态感知与专业工具的调用，实现对复杂地理空间问题的自主理解、逻辑推理与任务执行。其核心特征不仅体现在对复杂时空语义的精准感知上，更在于能将高层业务目标转化为可执行的操作，并依托反馈机制在执行过程中动态修正决策路径，从而推动地理信息系统从人工操作工具向具有对话交互与自动决策能力的智能平台演进。

如图4所示，智能体框架构建了一个“感知-思考-行动-进化”的闭环能力体系：感知层通过多模态大模型，对文本、图像、音频等异构数据进行融合处理与深度语义解析，实现对复杂业务环境的全面感知与实时响应；思考层依托业务知识图谱与大模型的协同推理能力，解构复杂知识网络的内在关联，完成高效方案规划与智能决策优化；执行层基于强化学习算法与智能规划技术，驱动智能体与专业技能工具的协同交互，确保复杂任务的精准高效执行；进化层通过在线学习与自我优化机制，使智能体能够根据环境反馈持续迭代策略模型，实现感知精度、决策质量与执行效能的协同增强，从而在面对动态复杂业务场景时具备持续的自适应能力与系统鲁棒性。

针对复杂地理场景下跨尺度、跨任务及海量工具调用的挑战，该层引入多智能体协同机制，通过角色分工、工具归类与信息共享，由主智能体负责全局规划与任务下发，各子智能体协同承担数据处理、模型推断与结果验证等子任务。这种采用通信与协商机制构建的整体协同模式，在灾害响应、环境监测等场景中能够展现出更好的协同性、扩展性与鲁棒性。

2.4 服务平台

地理空间智能服务平台通过对底层数据资源、模型中枢及智能体能力的深度集成与逻辑封装，构建起面向行业应用的通用化支撑环境。

图片4.png

图4 “感知-思考-行动-进化”智能体框架

本文设计了“一基座双平台”的时空产业全栈AI服务体系，如图5所示。底层的“生数”时空数据治理平台作为核心数字基座，提供数据汇聚、数据治理、数据加工、数据图谱构建及样本管线等全链路数据工程能力，实现多源异构时空数据的标准化治理、资产化沉淀与价值化挖掘，为上层应用提供高质量的数据要素支撑。在此基础上，平台双向赋能两大智能应用引擎：“隐图”时空智能孪生平台聚焦虚实映射与仿真推演，集成动态感知、孪生体构建与场景推演三大核心能力，实时实现物理空间的数字化镜像与多尺度仿真分析；“大衍”智能体开发平台面向业务智能体构建，提供了模型训练、技能开发、知识加工与智能体组装等全栈工具链，支持从算法到智能体部署的敏捷迭代。三层服务体系通过标准化数据接口与业务协同机制贯通，形成“数据治理-孪生推演-智能决策”的闭环，为智慧城市、自然资源管理、应急指挥等复杂业务场景提供端到端的时空智能服务支撑。本文以“莫干·玄衍”为引擎中枢，最终打造了地理空间智能服务平台。

图片5.png

图5 时空产业全栈AI应用服务平台

3 示范应用

本文选取遥感变化检测、实景三维更新与城市事件感知三个具有代表性的应用场景，阐述地理空间智能技术在国土空间治理、三维场景构建与城市精细化管理等领域中的示范应用效果，展示其在效率提升、智能化水平方面相较于常规技术路径的显著优势。

3.1 遥感变化检测

在地理空间智能技术体系支撑下，本文以“莫干·玄衍”地理空间大模型为基础，构建了由调度层与执行层协同运行的遥感变化监测工作流，基于多模态统一感知与语义匹配、反馈驱动的调度模型持续进化机制、图像切片原型学习与像素重建自监督融合预训练等技术，实现对遥感变化智能监测能力的提升。多模态统一感知与语义匹配技术通过跨模态Transformer编码器，对遥感影像、地理要素、行业文本及时间信息进行联合建模，实现变化检测任务中“影像变化-地理对象-管理语义”的统一理解，使变化识别不再局限于光谱或纹理差异，而能够直接对应到具体地物类型和管理对象。图像切片原型学习与像素级自监督预训练是针对遥感影像标注成本高、变化类型多样的问题，采用图像切片原型学习与像素重建自监督结合的双路径预训练策略，在弱监督甚至无监督条件下学习典型地物模式与细粒度空间结构，有效提升了变化检测在跨区域、跨季节条件下的稳健性与泛化能力。

本文选取德清县为试验区，实验数据为2024年的双时相0.5 m分辨率光学遥感影像，结合现有自然资源管理底图、耕地保护红线、建设用地边界等多源空间数据，形成统一的地理空间数据基础。在模型层面，通过大规模预训练学习地物的空间结构先验与变化模式分布，在稀疏标注条件下即可完成变化候选目标的自动生成与筛选。具体而言，模型首先利用多时相影像的联合编码机制，对同一空间单元在不同时相下的纹理、几何与上下文信息进行统一表征，从而有效缓解遥感影像中普遍存在的同物异谱、异物同谱等不确定性问题。针对传统变化检测中误报率高、难以区分真实变化与成像噪声的问题，模型通过生成式推理判断变化是否符合区域的空间结构逻辑与地类演化规律，实现从变化检测向变化理解的转变。在此基础上，模型结合规则套合模块，将生成的变化候选图斑与耕地保护、用途管制等管理规则进行自动匹配，实现违规变化的精准定位与分类。

实验结果表明，在无需大规模人工样本重新训练的前提下，模型实现了对全域变化图斑的自动发现与语义判读。相较传统人工解译与规则驱动流程，变化发现效率显著提升，误报与漏报情况明显降低，重点关注的疑似违规占用耕地图斑能够稳定识别并输出，具体如图6所示。最终，系统支持将检测结果自动汇总生成图斑分布图、变化统计表及分析文字说明，形成标准化、可直接用于业务管理的监测分析报告。

图片6.png

图6 遥感变化检测结果

3.2 实景三维更新

近年来，生成式三维建模技术为实景三维的高效生成与更新提供了思路。常规摄影测量三维建模通常依赖高密度航拍影像与严格的影像配准和相机标定，在此基础上需要经历空三加密、稠密点云重建、三维网格构建以及纹理映射等多级处理环节。这一流程对输入数据的完整性和覆盖密度要求极高，往往需要数千张以上影像才能支撑公里级场景建模，且计算链路长、人工成本高，难以满足大范围、高频次实景三维建模的需求。相比之下，生成式大模型三维建模技术通过稀疏视角照片作为输入，利用生成式点云与几何约束机制，显著降低了对影像数量和配准精度的依赖，并结合扩散模型直接生成建筑几何结构与纹理表达，实现从三维单体到大规模场景的高效合成，在保证几何与外观一致性的同时，显著提升了建模效率，为实景三维的规模化生产与快速更新提供了新的技术路径。

“莫干·玄衍”三维建模采用基于深度学习的生成式三维建模技术，通过学习海量三维场景数据形成稳定的几何与纹理先验，实现对真实世界空间结构的推理式重建。与倾斜摄影测量依赖“空三加密-密集匹配-点云构建-网格生成-纹理映射”的流程相比，本方法不再完全依赖高重叠度、多视角影像的逐像素匹配，而是在有限影像输入条件下，通过生成式推理直接重建建筑物及场景的几何形态与材质表达。

本文选取嘉兴经开区双溪湖区域约0.6 km2作为测试区域，分别采用传统倾斜摄影建模流程与“莫干·玄衍”生成式三维大模型开展对比实验，结果如表1所示。

相比之下，“莫干·玄衍”通过学习海量三维数据形成稳定的先验几何与纹理，在影像不完整条件下仍能对建筑立面、护栏、路牌及植被等面片和不规则目标进行合理推理与重建，具体效果如图7所示。同时，随着三维高斯参数估计与点云密度的持续优化，实景三维表面重建精细度和几何一致性进一步提升，整体建模质量在复杂城市场景中展现出更强的鲁棒性。

表1 传统倾斜摄影测量方法与生成式三维重建方法对比

表1.png

图片7.png

图7 “莫干·玄衍”生成式实景三维效果图

3.3 城市事件感知

城市事件感知场景下，传统应用场景采用以小模型为核心的治理模式，多面向单一、固定场景构建，模型依赖人工标注数据与先验规则，易受光照变化、遮挡、天气与视角差异等环境因素影响，普遍存在泛化能力不足、误报率高、识别类别单一且缺乏持续自学习能力等问题。当感知应用场景从局部扩展至复杂、多样的城市场景时，小模型往往需要频繁训练与人工干预，导致模型数量增加、系统维护复杂度上升，其整体部署与运维成本在规模化应用中反而增加，难以支撑城市治理实时性与广覆盖的需求。针对上述技术瓶颈，本文构建面向城市场景的多模态视觉语义大模型，引入跨场景知识迁移与持续学习机制，融合遥感影像、视频流、文本语义与时空关系信息，形成跨模态统一表征能力，使事件识别从特征匹配驱动转向语义理解驱动，显著提升了模型在复杂环境下的鲁棒性与泛化能力。该模型能够在统一模型框架下覆盖多类别城市事件的协同识别与理解，有效降低误报率并整体提升识别精度，从而突破传统小模型在场景适应性、类别扩展性与持续演化能力方面的限制。

以某市治理场景为例，本文依托模型及智能体的多模态统一感知与语义推理能力，能够在无需针对单一事件进行专门训练的情况下，对城市中的多类事件进行通用化识别。在复杂光照、遮挡及视角变化条件下，模型在多类城市事件识别任务中的整体准确率稳定超过90%，如图8所示。在烟火等突发应急事件识别场景中，模型仅依靠零样本语义理解能力即可将识别准确率提升至97.7%，显著减少了因光照反射、背景干扰等因素引发的误判。上述具体应用场景表明，本文实践不仅有效实现了城市事件感知从“小模型碎片化治理”向“大模型通用化治理”的转变，而且提升了复杂环境下的感知精度与稳定性，也为城市事件感知从被动监测向主动治理的演进提供了可行的技术范式。

图片8.png

图8 “莫干·玄衍”城市事件识别任务

4　结束语

本文阐述了地理空间智能的内涵与特征，从感知生成、认知表达、智能决策三方面梳理了其发展现状，初步提出了由“数据-模型-智能体-服务平台”构成的全链路技术体系，并阐述了其在典型场景中的应用示范，展现了地理空间智能从理论走向工程化的可行性。

地理空间智能工程化与规模化应用中仍面临以下挑战与发展方向：1）技术层面，需继续推动地理空间基础模型的演进，增强跨区域、跨传感器、跨任务的泛化能力，加强可信地理智能研究，建立可追溯、可审计、可解释的生成与决策机制，满足高可靠性要求。并且，地理空间智能需融入地理先验与空间约束，提升结果的实用性与一致性。2）平台体系层面，需推动数据共享与标准共建，建立跨行业、跨层级的高质量时空数据开放平台，发展低代码/无代码智能体开发工具，降低地理空间智能应用门槛，赋能更多行业用户，共建开放协同的技术生态。3）应用层面，需开展更深层次的场景创新与模式重构，深化行业赋能与跨域融合。

当前，地理空间智能正在从技术探索走向体系化构建与规模化落地，其发展不仅依赖于算法突破与算力提升，更依赖于数据质量、行业知识与应用场景的深度融合。未来，随着技术的不断完善与生态协同的深入推进，地理空间智能有望成为推动数字经济、智慧社会与可持续发展的重要引擎，实现从“感知世界”到“理解世界”再到“赋能世界”的跨越［42］。

主管部门：

自然资源部
民政部
中国科协

京ICP备14037318号-1

京公网安备 11010802031220号
主办：中国测绘学会技术支持：江苏润溪时空智能科技股份有限公司
联系电话：010-63881345 邮箱地址：zgchxh1401@163.com
联系地址：北京市海淀区莲花池西路28号西裙楼四层

作者简介

正文

1 发展现状

2 技术体系架构

3 示范应用

3.1 遥感变化检测

4　结束语

综合

学会/协会

院校

重点实验室

国外相关

求职招聘

作者简介

正文

1 发展现状

2 技术体系架构

3 示范应用

3.1 遥感变化检测

4 结束语

综合

学会/协会

院校

重点实验室

国外相关

求职招聘

4　结束语