

时候深度剖判
SimVLA:践行奥卡姆剃刀,以极简VLA架构重塑机器东说念主操作基准
在通用机器东说念主操作范围,视觉-话语-动作(Vision-Language-Action, VLA)模子行为具身智能的中枢范式,比年来堕入了“复杂度武备竞赛”的发展误区。学界与工业界纷纷通过重叠3D几何先验、复杂时空驻防力模块、多阶段解码结构,或是盲目扩容模子参数目,试图突破性能上限,却忽略了一个中枢问题: 复杂架构带来的工程冗余,算力损耗巨大。OpenVLA的模子范围达到约7B参数,往往需要RTX4090或A100等高端GPU才调开动。
针对这一滑业痛点,说念通科技旗下Frontier Robotics团队潜心研发,肃肃推出SimVLA(Simple Vision-Language-Action)极简基准模子。该效果以“如无必要,勿增实体”的奥卡姆剃刀原则为中枢设想形而上学,严格剥离冗余架构设想,通过感知与限度深度解耦、中枢考研经过全范例化,终显着仅0.5B参数目的极简模子,在多项范例基准测试中罕见数十亿参数目的复杂SOTA模子,同期大幅镌汰算力门槛,为VLA范围搭建了透明、可复现、高性能的基准坐标系。关系琢磨论文已公开于(arXiv:2602.18224),技俩代码、权重与全套部署决策已全面开源,助力具身智能时候落地。
中枢时候定位:SimVLA并非单纯追求SOTA的新式模子,而是面向VLA范围的范例化基准框架,通过极简模块化设想与严谨考研范式,厘清性能增益中枢要素,为后续架构翻新提供自制对比标尺,同期兼顾工程落地的高效性与易用性。
范围痛点与研发初志:告别冗余,转头VLA本质
现时VLA模子研发存在三大核肉痛点,制约了时候从实验室走向实验场景:
• 归因微辞,翻新价值难量化:新增模块、优化计谋、数据配比等变量混合,新模子的性能进步无法明确归因于架构翻新,照旧隐性考研手段,导致范围琢磨折以变成灵验积存;
• 算力门槛过高,普惠性不及:主流大参数目VLA模子(如7B量级OpenVLA)考研峰值显存需求超60GB,依赖高端算力集群,中小团队与琢磨者难以复现、微调与二次斥地;
• 架构耦合严重,彭胀性差:感知模块与动作生成模块深度绑定,无法无邪适配新一代视觉-话语(VLM)主干,模子迭代资本极高,难以适配多形态机器东说念主的部署需求。
基于此,SimVLA团队缔造了澄莹的研发规划:打造一个尽量情愿、模块解耦、考研经过范例化的 VLA 基线,在较低参数范围和算力支拨下终了具有竞争力的机器东说念主操作性能,并为后续法度提供更透明、更可复现的比较参照。
SimVLA 在真的机器东说念主上的零样本部署发扬
涵盖了收纳、插花等复杂任务
这种“作念减法”的设想不仅让模子更透明,还带来了一个巨大的工程上风——极高的遵守。如下表所示,SimVLA 在Batch=8时的峰值考研显存仅需9.3GB。比拟之下,7B范围的 OpenVLA-OFT 需要62GB。这意味着,你以致不错在一张庸俗的糜费级显卡(如RTX 3090)上浮松考研和微调我方的机器东说念主计谋。
SimVLA 与主流模子的性能及遵守对比
其显存占用上风巨大
中枢架构设想:感知限度深度解耦,极简模块化极致优化
SimVLA甩掉复杂耦合设想,采用“VLM主干编码器 + 轻量级动作头”的二元模块化架构,严格折柳感知贯通与动作推行两大功能模块,终了职责分离、高效协同,罢职尽量情愿的设想原则。(1)合座责任经过
合座责任经过
模子端到端推理经过澄莹可控,全程无冗余臆想,适配机器东说念主实时限度需求:
• 多模态输入:经受多视图RGB图像、当然话语请示、机器实验感受景象(关节位置、姿态等)三类中枢输入;
• 感知特征索要:VLM主干编码器单次前向推理,完成视觉与话语特征和会,输出跨模态和会Token;
• 动作序列生成:轻量级动作头基于和会特征、实验景象与时候镶嵌,通过流匹配去噪,输出一语气动作块(Action Chunk),完成机器东说念主限度请示生成。
• VLM主干编码器:通用感知引擎
采用预考研视觉-话语模子行为专用感知模块,仅负责跨模态特征索要,不参与动作生成,终了感知智商与限度逻辑的解耦。默许选用SmolVLM-500M-Instruct(0.5B参数目),也可无邪适配Florence-2等主流VLM主干,无需调动动作头结构,具备极强的彭胀性。
该模块中枢作用:将多视图视觉信息与当然话语请示映射至协调特征空间,输出高维度和会Token,为动作生成提供精确的环境语义与空间位置先验,且每个限度步仅需推理一次,大幅镌汰推理延伸。
• 轻量级动作头:专用限度模块
采用轻量化Transformer编码器结构,分为小、大两种可成立规格,参数目仅约300M,极致轻量化,具体架构参数如下:
输入维度:和会VLM特征、机器实验感受景象、时候步正弦位置编码、加噪动作块四类信息,通过自驻防力机制完成信息和会,全程无复杂交叉驻防力、条款归一化等冗余设想。
• 动作生成机制:条款流匹配(CFM)一语气动作建模
甩掉翻脸动作Token预测与不褂讪的扩散模子,采用条款流匹配(Conditional Flow Matching, CFM)终了一语气动作空间建模,这是SimVLA高效褂讪的中枢时候弱点。
CFM中枢道理:学习确定性向量场,将高斯噪声平滑漂泊为规划动作漫衍,考研规划为最小化L2耗费,推理阶段通过一丝欧拉积分风景,即可从噪声中生成时序平滑、一语气可控的动作块,比拟扩散模子,推理速率更快、动作时序一致性更强、优化褂讪性更高,更符合一语气动作建模与万古序限度场景。
SimVLA 架构概览
展示了从感知到动作生成的解耦经过
SimVLA 由两部分组成:
·VLM 主干编码器(Backbone Encoder):负责“看”和“听”。它采用预考研的多模态大模子,将多视图图像和请示映射到一个分享的 Token 默示空间 。
·轻量级动作头(Action Head):负责“动”。这是一个纯正的 Transformer 编码器,它经受来自 VLM 的特征、机器东说念主景象以实时候步镶嵌,通过自驻防力机制和会信息。
这种解耦设想的私密之处在于:VLM 主干网在每个限度步只需开动一次。后续生成动作时的迭代去噪过程一起在极其轻量的 Action Head 中完成。这大大镌汰了推理延伸,让机器东说念主响应更敏捷。
范例化考研范式
SimVLA的中枢突破不仅在于极简架构,更在于全经过范例化考研决策。团队通过大齐消融实验考证,考研细节对VLA模子性能的影响,众多于架构微调,因此针对性范例化了四大中枢要道,透彻管束复现性差、优化不褂讪的行业艰难。(1)动作默示与归一化
基于考研集逐维度统计量,对一语气动作空间与实验感受景象进行归一化处理,将数值范围缩放至褂讪区间,大幅优化优化器不断条款,幸免因数值圭臬相反导致的考研轰动。同期,针对不同基准任务,概述化调优动作块预测跨度H,适配缅怀期任务的时序需求。
SimVLA 罢职范例 VLA 范式:给定不雅测,广瑞网配资预测夙昔一语气动作块。
不雅测空间
ot=[It1,...,Itn, ℓt, st]
I:多视图 RGB 图像
ℓ:当然话语请示
st:实验感受景象(Proprioception)
输出一语气动作块(Action Chunk):
At=[at, at+1, ..., at+H−1]∈RH×da
采用滚动时域推行(Receding-horizon control)。
(2)数据处理范例化
机器东说念主演示轨迹具备极强的时序关系性,无序数据打乱会导致模子过拟合短时模式,长程泛化智商极差。SimVLA采用严格时序打乱计谋,冲破轨迹时序依赖,确保模子学习通用操作逻辑,而非缅思固定轨迹,这是模子鲁棒性的中枢保险。
(3)优化能源学全管控
固定批次大小与总考研步数,系统性调优学习率、预热计谋、学习率缓助器,中枢优化点:
• VLM主干采用小学习率倍率(为动作头的0.1倍),保护预考研跨模态学问,幸免微调过程中特征坍弛;
• 概述化筛选学习率取值,幸免过高导致优化发散、过低导致不断逐渐,确保优化过程褂讪高效。
(4)架组成立范例化
默许采用极简动作头设想,消融实验仅调养动作头范围、VLM主干类型、信息注入时势,总共变量可控,确保性能对比完全自制,为后续琢磨提供可复制的成立参考。
实验考证:小参数大能量,全靠近标复杂SOTA模子
SimVLA在仿真基准、鲁棒性测试、真的机器东说念主部署三大场景完周密标的严苛考证,全程无机器东说念主预考研,仅靠极简架构与范例化考研,终显着性能与遵守的双重突破。
(1)仿真基准测试:达到SOTA水平
在机器东说念主操作范围巨擘LIBERO基准测试(包含Spatial、Object、Goal、Long四大任务套件)中,SimVLA全程无机器东说念主预考研,仅0.5B参数目便终了顶尖性能,与主流大参数目VLA模子的隆重见遵守对比如下:
LIBERO 基准测试隆重对比
SimVLA 在各子项上均发扬优异
SimVLA 不仅在“Tiny Models”类别中遥遥向上,以致压过了很多 7B、8B 以致 9B 的巨型模子(如 OpenVLA、UniVLA 等)。在 LIBERO-Long 这种长程任务中,SimVLA 的发扬仍是安妥,说明了其流匹配机制在保管万古序一致性方面的上风。
(2)鲁棒性测试:LIBERO-PRO零样本泛化优异
在LIBERO-PRO鲁棒性基准中,针对物体外不雅、位置、语义形色、任务规划五大维度扰动,SimVLA保抓了极高的任务见遵守,尤其在语义、任务扰动下,性能权臣优于同类模子,说明模子真的贯通任务逻辑,而非单纯缅思轨迹。
SimVLA的轻量化设想带来颠覆性算力上风,考研显存占用远低于同类大模子,庸俗糜费级显卡即可完成考研部署,具体算力参数对比如下:
极致的轻量化带来颠覆性算力上风:Batch=8考研时,峰值显存仅需9.3GB,远低于OpenVLA-OFT的62GB、π0.5的24.7GB,单张RTX 3090糜费级显卡即可完成完整考研与微调,大幅镌汰VLA模子研发与部署的算力门槛。
永隆资本
LIBERO-PRO 鲁棒性评估
展示了模子在不同扰动下的发扬
WidowX 桌面概述操作基准:取勺子放弃、胡萝卜收纳、杯子堆叠、茄子放弃四大任务见遵守均值为评估依据,SimVLA 原始场景见遵守 95.8%,远超MemoryVLA(71.9%)和FPC-VLA(64.6%);物体外不雅、语义请示扰动维度快要满分,较π0.5(96.9%)进步1% 以上,OpenVLA则仅97%;空间布局、任务规划扰动维度,SimVLA保抓对基线的十足向上。
SimVLA与WidowX 机器东说念主任务性能(见遵守)对比
Google Robot 洞开式家居操作基准:基于物体拾取、物体移动、抽屉开启三大任务均值评,SimVLA原始场景见遵守77.0%,高于SpatialVLA(67.5%)和RT-2-X(65.6%);语义请示扰动维度98.0%以上,较π0.5(93.0%以上)进步5%以上;物体外不雅、空间布局、任务规划扰动维度,SimVLA(99.8%、99.4%、98.2%)均为三者最优; OpenVLA在空间、任务规划维度近乎失效,π0.5该两类维度见遵守也不及20%。
SimVLA与谷歌机器东说念主任务性能(见遵守)对比
(3)真的机器东说念主部署:零样本跨场景迁徙达标
在Galaxea R1 Lite双臂移动机器东说念主上完成零样本部署,基于500小时开源数据集考研后,告成适配未见过的办公场景,完成收纳玩偶、插花、擦桌子、扔垃圾等8项多阶段复杂操作,合座见遵守与3B参数目π0.5抓平,部分任务(擦桌子、扔垃圾)见遵守达100%,具备极强的实验落地价值。
真机实验任务见遵守对比
SimVLA 在多数任务上达到 80% 以上见遵守
(4)中枢消融实验论断:考研细节决定性能上限
团队通过限度变量法完成中枢消融实验,固定其余参数仅修改单一变量,直不雅考证各考研细节、架组成立对模子性能的影响,实验闭幕如下:
从消融实验闭幕可明确:数据打乱、动作归一化、优化能源学成立是VLA模子性能的中枢驱能源,影响进度远高于架构微调,极简架构搭配范例化考研,即可支抓顶尖性能。
通过限度变量消融实验,明确VLA模子性能中枢影响身分:
• 关闭数据打乱:见遵守从98.6%暴跌至9.9%,时序打乱是模子考研的中枢前提;
• 关闭动作归一化:见遵守降至12.3%,归一化是优化褂讪的弱点;
• VLM学习率倍率同步:见遵守降至44.2%,小倍率保护预考研特征至关病笃;
• 动作头缩容、替换信息注入时势:性能仅小幅着落,说明极简架构已鼓胀支抓顶尖性能。
LIBERO 消融实验闭幕
展示了各身分对见遵守的影响
范围价值与工程道理道理:重塑VLA研发范式
SimVLA行为Frontier Robotics团队的中枢自研效果,不仅是一款高性能VLA模子,更对通盘具身智能机器东说念主范围具有深切的引颈道理道理:
• 缔造范例化基准:搭建透明、可复现的VLA基线,后续架构翻新可告成对标,澄莹量化翻新价值,终结范围归因紊乱的风景;
• 践行极简研发理念:说明奥卡姆剃刀原则在VLA范围的可行性,甩掉冗余复杂度,并吞行业转头时候本质,聚焦真的翻新;
• 镌汰时候门槛:轻量化设想+开源全栈决策,让中小团队、高校琢磨者无需高端算力,即可开展VLA模子研发与落地,鼓励时候普惠;
• 缔造范例化基准:搭建透明、可复现的VLA基线,后续架构翻新可告成对标,澄莹量化翻新价值,终结范围归因紊乱的风景;
• 进步工程彭胀性:感知限度解耦设想,支抓无邪升级VLM主干,适配多形态机器东说念主,镌汰模子迭代与部署资本。
总结与预测
SimVLA以极简架构为骨架,以范例化考研为中枢,冲破了VLA范围“越复杂越苍劲”的固有领路,用0.5B参数目终显着SOTA级性能,完整诠释了奥卡姆剃刀的时候形而上学。这一效果不仅为说念通科技机器东说念主具身智能时候积存了中枢竞争力,更为通盘行业提供了可复用、可彭胀、可复现的研发范式。
夙昔,团队将基于SimVLA基准框架,抓续优化轻量化动作头设想、拓展多机器东说念主形态适配智商、优化端侧部署遵守,同期鼓励极简VLA时候在工业、巡检、办事机器东说念主场景的落地,助力具身智能时候从实验室走向范围化期骗。
下载“北京日报”客户端 阅读体验更佳哦

扫描二维码下载手机客户端


扫描二维码下载手机客户端
-->分享到









发布驳斥闲雅上网感性发言,请投诚驳斥办事契约
![]()
未登录
0/200发布发布一起驳斥0条
点击加载更多
接待下载“北京日报”客户端发表驳斥
关系阅读热点报说念换一批推选阅读换一批精彩视频换一批猜你心爱滚动企业北京国内海外北晚社会娱乐体坛旅游文史阅读深度产经拜访互联网好意思食北晚健康糜费北晚行业北晚网摘网站舆图新闻驳斥深度表面视频图库悦读互联网财经文化体坛科教糜费矩阵网摘东城区政府网站西城区政府网站向阳区政府网站海淀区政府网站丰台区政府网站石景山区政府网站门头沟区政府网站房山区政府网站通州区政府网站顺义区政府网站大兴区政府网站昌平区政府网站平谷区政府网站怀柔区政府网站密云区政府网站延庆区政府网站市东说念主大市政协市监察委市高档东说念主民法院市东说念主民检察院市政府办公厅 市发展改造委 市教委市科委市经济信息化局市民族宗教委市公安局市民政局市公法局市财政局市东说念主力社保局市设想当然资源委市生态资源局市住房城乡建立委市城市管束委市交通委市水务局市农业农村局市商务局市文化和旅游局市卫生健康委市退役军东说念主事务局市济急管束局市商场监督管束局市审计局市政府外办市国资委市播送电视局市文物局市体育局市统计局市园林绿化局市场所金融监管局市东说念主防办市信访办市学问产权局市医保局 京报媒体矩阵北京日报 北京晚报北京后生报北京商报音乐周报新闻与写稿北京日报客户端长安街知县艺 绽北晚在线北京深读空间


对于咱们 京报集团京报移动传媒北晚在线版权声明斟酌咱们 友情相接东说念主民网新华网央视网光明网中国网中国日报网中国经济网千龙网本日头条百度新浪网易腾讯搜狐爱奇艺优酷
Copyright ©1996-2026 Beijing Daily Group, All RightsReserved
京公网安备11040202120009号 |工信部备案号:京ICP备14054880号-1
掌握:北京日报报业集团 主理:京报移动传媒有限公司
网上无益信息举报专区

说念通科技 0.5B参数打赢7B模子:SimVLA重塑机器东说念主操作VLA范式聚积2026-03-30 09:08
专注报说念您思看的新闻
长按二维码巡逻著作笃定

点击下载
发布驳斥闲雅上网感性发言,请投诚驳斥办事契约![]()
未登录
0/200登录发布一起驳斥0条
点击加载更多
账号登录短信登录请输脱手机号长沙配资配资网海悦配资联丰优配优配网尚竞配资
广瑞网配资提示:文章来自网络,不代表本站观点。