当前位置：首页 > 实时讯息 >

星动纪元创始人陈建宇：具身智能技术路线正加速收敛，模型架构决定智能上限

蓝鲸新闻8月21日讯（记者武静静）近期，具身智能与人形机器人领域迎来多路资本涌入。2025年上半年，中国人形机器人行业融资额和数量均刷新纪录。根据IT桔子数据，截至目前，该领域共发生87起融资事件，已披露融资金额达109亿元，相比去年同期几乎翻倍增长。

风口之上，资本热度不减。人形机器人正在成为一级市场的新宠，被视为继AI之后的又一科技投资热点。在技术与商业的双重推动下，一批科研背景浓厚的企业正加速从实验室走向市场。

成立于2023年8月的星动纪元，是清华大学唯一持股的具身智能企业，由清华大学交叉信息研究院助理教授陈建宇创立，并得到上海期智研究院支持。团队科研背景深厚，80%以上成员来自清华大学、北京大学、加州大学伯克利分校、新加坡国立大学及知名企业。

今年7月，公司宣布完成近5亿元A轮融资，由鼎晖VGC和海尔资本联合领投，厚雪资本、华映资本、襄禾资本、丰利智能等跟投，老股东清流资本、清控基金继续追加投资。此前，公司已完成三轮融资。

近日，蓝鲸科技采访了星动纪元创始人陈建宇，他就公司技术路线、产品落地以及行业趋势进行了深入探讨。

具身智能技术路线正经历一次重要的收敛

当下，具身智能的技术讨论中，“VLA（视觉、语言、行为）”和“端到端”成为高频词。作为一家坚持软硬件全栈自研的人形机器人公司，陈建宇在接受蓝鲸科技等媒体采访时表示，具身智能技术路线正经历一场重要的收敛，VLA正在成为行业的主流方向。

陈建宇回忆，早期关于机器人控制方式存在过激烈争论——是坚持传统的控制方法，还是走向基于学习（learning-based）的路径，他认为，分层式模型与端到端VLA模型的争论，也正像早期对学习方法的怀疑一样，最终会因实践而收敛。“不论是国内还是国外，包括一些同行在内，都展现出了不错的VLA能力。这让大家开始逐渐相信，端到端确实是有效的。”

星动纪元从创立的第一天起就押注端到端的VLA范式。“我们认为这是一个第一性原理的选择，是最终的方式。”陈建宇说。他认为，具身智能的技术收敛并未结束。“我们现在仍在推进下一阶段的演进，比如模型架构的进一步改进。虽然这些方向还未完全落地，但我们已经开始下注。只要我们能够证明其有效性，就会带来新一轮的技术收敛。”

他进一步解释，VLA涵盖机器人智能的核心三环节：视觉（Vision）负责感知世界，语言（Language）用于理解与对话，行为（Action）完成输出与操作。他甚至打趣称，人类本身就是一个高效的VLA系统，这一理念为人工智能设计提供参考。

陈建宇进一步指出，世界模型则是在现有VLA模型基础上进行能力升级的一种方式，它能够提升机器人的精细化操作能力、泛化能力和认知能力。换言之，世界模型与VLA不是互斥关系，而是逐步完善VLA能力的下一个范式。

关于为什么当前阶段还无法实现完全的端到端通用智能，陈建宇总结了两条关键路径：

其一，是将世界模型与生成式模型融合。他表示，星动纪元已率先完成全球首个将世界模型与生成式模型结合的研究，使模型不仅能对未来状态进行预测和认知，还能直接生成行为决策。“去年我们就陆续发表了相关论文VPP（Video Prediction Policy)，引发业内讨论。随着更多同行的关注和合作，这一方向有望快速形成共识。”

其二，是VLA层面的强化学习。他提到，目前很多运动控制仅依赖强化学习完成走路或基本运动，但在VLA框架下，强化学习的目标是提升机器人的通用能力，让同一套模型能够处理各种任务。星动纪元自去年开始在这一方向进行探索，并已形成一系列学术成果，为通用VLA模型的实现奠定基础。

模型决定数据：架构优化引导数据利用效率

陈建宇指出，人形机器人关键核心在三个层面：模型架构、数据策略和本体设计。

“模型架构最重要，它直接决定了模型的上限。”陈建宇说。其次是数据，不仅在于数量，更关键的是多样性、来源丰富度和质量。第三是本体能力，例如是否有腿决定上下楼能力，是否有手决定复杂工具的操作能力，本体的性能和复杂度会直接限制机器人可完成任务的类型和难度。

关于当下具身智能和人形机器人普遍面临的数据难题，陈建宇坦言，这确实是具身智能研发中的难题。不同机器人的自由度、输出维度、传感类型可能各不相同，使得数据和模型的直接复用面临限制。为此，星动纪元采取了数据金字塔和两阶段训练策略。

在预训练阶段，公司尽量使用与具体本体无关的数据，例如人的行为视频，因为人类本身是一个通用的本体，可以为机器人提供可迁移的学习样本。随后在真机微调阶段，如果机器人的形态与已有模型相对接近，迁移效果会更好。陈建宇指出，即便机器人迭代了新一代产品，胳膊构型、颜色或自由度有所变化，模型在不收集任何新数据、不做微调的情况下，也能完成原有任务，只是成功率略有下降。

他解释，形态相似的人形机器人之间迁移表现良好，但跨形态迁移则存在局限。例如，从人形迁移到四足机器人，或从单臂机器人迁移到双臂机器人，效果都不理想。这也显示出本体设计与数据复用的紧密关联，为未来构建更通用的VLA模型提供了重要参考。

未来机器人模型的发展，是依赖更少的数据，还是数据量越大越好？

陈建宇回应称：“绝对数量本身还是会越来越大，越大越好。他强调的是在完成同样任务的情况下，我们只需要更少的真机数据即可完成任务，也就是数据利用效率更高。但即便如此，数据总量仍然需要增加，因为目前的数据量仍然不够。”

“模型决定数据。模型决定数据如何被高效利用，包括能使用多少类型、来源、数量和质量的数据。模型是核心。”

当被问及在当前阶段，行业应重点关注模型还是数据时，陈建宇表示：“现阶段应该关注模型。当然，数据也非常重要。有时我们需要从数据量和质量反推模型的性能要求。最终系统一定是data-driven，模型需要能够消化足够量的数据，这也就要求不断优化模型架构以适应数据增长。”

未来五年展望：爆发式增长与关键技术突破

关于人形机器人的落地与商业化，陈建宇持乐观态度。他表示：“在一些真实的工业场景中，我们已经达到了人的70%以上的效率，明年有望提升到90%。”他分析，这与端到端模型的优势密切相关：“端到端能够实现实时反馈和控制，不像传统方法需要分阶段识别、规划和执行。人类操作是即时反馈的，看到就能动，端到端让机器人也能做到类似的实时调整。”在硬件层面，只要性能和速度足够，结合软件持续优化，机器人未来有望接近甚至超越人类水平。

星动L7——物流场景智能扫码、分拣多机协作

谈及杀手级应用的路径，陈建宇认为短期与长期存在差异：“短期一定是在B端工业场景落地，一方面为企业提供解决方案，另一方面也是技术和数据积累的阶段，帮助建立飞轮效应。”但从长期来看，他坚信最终的杀手级应用仍将在家庭场景，机器人将逐步成为日常生活的一部分。

在技术突破方面，陈建宇透露，公司去年自研的灵巧手已完成样机验证，今年可稳定量产，“成本下降，稳定性大幅提升。如今已有众多客户在使用，这也是我们量产化的重要突破。”他提到，灵巧手已与VLA模型深度融合，实现端到端直接控制每个手指关节的高频动作。“这意味着机器人能够在操作中实时生成行为，完成更复杂、更精细的任务，技术成熟度显著提升。”

针对家庭场景的落地时间表，陈建宇指出，机器人进入家庭的趋势已经显现，“实际上，扫地机器人就是最早的例子。”他判断，未来几年会出现相对简单形态的家用机器人，而部分高净值家庭也可能尝试功能更通用的人形机器人。尽管此阶段功能尚不十分强大，但足以吸引早期用户尝鲜体验。

他进一步预测，以未来五年为时间节点，家用机器人有望迎来爆发式增长。在此过程中，机器人将逐步解决复杂操作、通用智能和高效交互等关键技术问题，为更广泛的家庭场景落地奠定基础。