大语言模型之后,空间智能如何打开AI通往物理世界的入口?|界面新闻 · 科技

adminweb 5 0

界面新闻记者 | 李如嘉

界面新闻编辑 | 文姝琪

当“报警器”响起,一只机器狗穿过人群来到灭火器前,紧接着奔向另一个灭火器,确认没有危险之后,发出“检查完成,没事我回去了”的声音。

大语言模型之后,空间智能如何打开AI通往物理世界的入口?|界面新闻 · 科技-第1张图片-太空智网

这是在八维通展厅里,工作人员正在展示其ViLSP(VisionLanguage-Spatial-Physics空间物理视觉语义大模型的应用场景之一。

通过该模型,当展厅内有火警警报响起,系统会通过演算判断起火点和火情扩散趋势,并派出机器狗检查是否确实有火情存在。机器狗上搭载的“大脑”可以通过激光雷达实现建筑结构的云建模,同步驱动多光谱摄像头进行烟雾浓度的光谱分析,以时空参数融合算法重构火场全息投影提供给指挥中枢

“与文字模型不同,我们的大模型是能理解空间和物理的,包含了视觉感知雷达探测、空间边缘计算等技术,其中最关键的是空间边缘计算,它是从二维到三维的转换器,让AI理解物理世界。”八维通首席数字官郑航向界面新闻介绍。

大语言模型之后,空间智能如何打开AI通往物理世界的入口?|界面新闻 · 科技-第2张图片-太空智网

在计算机视觉与自然语言处理融合的趋势下大语言模型打开了人们对AGI(通用人工智能)的想象大门。但近来越来越多的观点提出,大语言模型虽然在文本理解和对话生成方面成果显著,却难以直接理解三维世界的几何结构,也无法处理复杂多变的物理过程。想要真正实现AGI,人工智能在语言之外,还要像人类一样走向三维世界。

为了做到这一点,空间智能是重要的研究领域。空间智能主要指人工智能理解、感知、分析物理三维空间信息并与之交互的能力它能够将环境中的各种数据位置结构、物体之间的关系,以及物理属性转化为可计算、可推理的数字模型,使机器具备类似人类对空间的感知和交互能力。

不过,目前行业内对空间智能技术及其应用的探索还在初期阶段,相关产品也大多还在研发中,鲜少有成熟案例。八维通就是其中一家聚焦空间智能、希望突破垂直场景应用的公司。

2023年,在研究国际和国内人工智能发展的时候,我们就在想该如何实现‘弯道超车’。”八维通董事长杨宏旭同界面新闻回忆,“我认为与发达国家相比,我们在工业制造、发展生态等方面确实还存在一些差距,但在城市空间这个领域,中国可以说是世界上最先进的国家。具身智能在应用中是离不开城市空间的,所以我们就想在这方面做一些产品出来。”

杨宏旭介绍,ViLSP模型通过在VLM框架上加入空间语义与物理多模态两个关键维度,让AI不仅能“读图+懂语言”,更能“算空间+知物理”。其对空间的解析不仅停留在视觉层面,还有空间结构,譬如建筑布局、道路的拓扑结构;以及物体的一些物理属性、用途,物体之间的逻辑关系等,譬如烟雾在环境中如何蔓延。

在理解静态三维世界之外ViLSP融合流体力学、结构力学、热力学等多模态物理模型通过“物理多模态大模型”,AI能在更复杂的物理规则下模拟并推演真实世界例如在火灾、洪水、地震等动态风险发生时进行灾情推演。

在推演的准确率上,杨宏旭介绍,目前推演的准确度可以达到80%-90%,实际效果要看场景的复杂程度和数据的有效性决定。由于目前城市建筑空间和设备设施模型的数据量还不够,为了提升准确度,八维通还在不断进行数据的采集标注以及模型的训练,也会应用专业技术对模型输出的结果进行评估,进而不断提升精度。

八维通认为,只有具备了空间深度认知与自主决策能力,并落地到行业应用,人工智能才能真正读懂三维世界的运行机制,在此基础上结合强化学习、多模态大模型等技术,让具身机器人不再依赖外部“遥控”能够在复杂环境中具有自主感知、推理和决策能力掌握物理规律与时间演化辅助人类执行工作。

去年年初,八维通的空间智能产品在消防场景中完成了落地,推出360智能巡检设备。该设备通过前端摄像头与大模型协同工作,在巡检时实时构建环境三维模型,自动比对建筑结构、设备布局等历史特征数据,一旦检测到风险或者发现与以往环境特征不符的情况立即触发声光报警并推送应急路径建议,使消防员巡检环境作业效率提升30%以上目前的应用场景主要在园区、博物馆、轨道交通里的消防应急上。

当前这家公司正在展开将空间智能产品搭载在机器狗上相关研发。同在展厅中的演示一样,在将建筑物整体的空间和设备完成建模之后,机器狗可以代替人类完成日常巡检工作,在工作中,机器狗可以对周边的空间环境进行识别,一旦发现相关的消防设施不在应处的位置,或者发现可疑人物等,它就会报警。如果有火警等情况发生,机器狗也可以前去侦查,确认是否为误报。目前,结合机器狗的应用还在测试阶段,预计不久后就会推向市场。

在空间智能的发展中,杨宏旭认为主要存在三大挑战。其一是数据问题的标注和清洗问题。目前八维通的数据分为已有的建筑物城市模型、合作方企业内部图纸数据,自研设备在使用中采集的数据,以及虚拟仿真平台生成的仿真数据,其他机器人和智能体采集的真机数据等几部分。由于这些数据往往数据量庞大,涉及多个维度,格式通常也并不统一,对这些多元异构数据的标注、整合和清洗需要投入大量的时间和人力,遵守相关的使用和隐私规范

其二是空间智能对实时性的要求较高,在大规模数据的基础上做及时的推理和决策,系统的稳定性和效率都是极大挑战也对算力提出了要求。

其三,物理因果的复杂性也要纳入考虑,譬如空气动力、材料特性、天气变化等物理要素的细微变化都可能影响整个推演结果,因此要对模型不断迭代,并做大量的验证。

因此,空间智能的应用对硬件和软件都有很高的要求,要做到产品性能好的前提下控制成本,才能保证其大规模落地。

“我也没想到空间智能这么快就受到了关注,去年我还在公司说,快则一年,慢则三年才能看到大趋势的到来。”杨宏旭告诉界面新闻。不过他认为,人工智能的发展不是一蹴而就的,不能指望它马上替代人,在面对消费者之前,还是要先在行业上应用,帮助人类完成一些重复、危险的工作。因此八维通目前在开拓的场景主要集中在消防应急、水利管网、轨道交通等。比如在大坝这些人类很难触达的水利设施上,机器狗就可以去到现场,及时勘测是否有隐患存在。

  • 双核驱动引导中医药创新 振东制药新范式点亮乌镇健康大会|界面新闻
  • 个人养老基金Y份额一季度首破百亿大关,9只成立以来收益率超10%|界面新闻
  • 京东外卖又崩了,京东:午间高峰下单量暴增致系统故障|界面新闻
  • 服务业扩大开放新增9个试点城市|界面新闻 · 快讯
  • 国务院食安办等六部门:在全国范围内部署开展食品添加剂滥用问题综合治理行动|界面新闻 · 快讯
  • 【专访】布鲁盖尔研究所高级研究员科克加德:如果特朗普一意孤行,美国肯定会衰退|界面新闻 · 天下
  • 青岛前首富旗下银行大额股权1元起拍,业内人士:“拍卖捡漏的情况很少见”|界面新闻
  • 国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU|界面新闻 · 快讯
  • 问界M8开启首批交付|界面新闻 · 快讯
  • 财说|亏损3.81亿元、应收账款高企,金域医学遭遇业绩危机|界面新闻 · 证券
  • 盘中必读|央行降准又降息!房地产股集体大涨,天保基建等多股涨停|界面新闻 · 证券
  • 国家统计局:4月份制造业采购经理指数(PMI)为49.0%,比上月下降1.5个百分点|界面新闻 · 快讯
  • 贵州黔西游船倾覆事已致3人死亡,事发时天气骤变|界面新闻 · 中国
  • 2025年全球主题乐园盛宴来袭,梦幻之旅即将启程|界面新闻 · 旅行
  • 数据 | 2023年约1000个商业银行网点消失,这个地区退出数量最多|界面新闻
  • 抱歉,评论功能暂时关闭!