北京亦庄人形机器人半程马拉松在不久前落下帷幕。赛场上,多支参赛队伍展示了长时间复杂状态下的视觉稳定性;赛场外,多家供应链企业披露,针对人形机器人的定制化摄像模组已进入试产或定点阶段。“部署态元年”成为行业共识,具身智能正从实验室走向工厂、物流、商用场景的常态化部署。这一转变对视觉系统提出了更严苛的要求:视觉不再仅仅是“看见”,而必须做到全天候、全场景、高鲁棒的环境理解。理解视觉系统中“光”的技术逻辑与产品形态,正是把握具身智能演进的核心一环。
市场数据也印证了视觉系统的战略地位。据QYResearch报告,全球具身智能机器人3D视觉传感器市场预计2026至2032年间年复合增长率(CAGR)为29.0%。行业普遍预期,随着机器人功能复杂度提升,视觉系统将从“部分场景选配”演变为“全场景标配”,单台机器人的摄像头数量可能从目前的几个增至十几个,覆盖近距精细操作、中距避障导航、远距环境建图等不同层级的需求。
视觉系统:从“看见”到“理解”
人形机器人要在非结构化环境中稳定作业,视觉系统至少需要回答三个问题:我在哪、周围有什么、如何交互。这分别对应了定位与建图(SLAM)、障碍物检测与避障导航、目标识别与抓取规划三个核心任务。其中,抓取任务尤其依赖“手眼协同”——视觉感知到的空间位置必须与机械臂的运动控制实现毫秒级、亚厘米级的实时对齐。
为支撑这些任务,机器人需要获取两种互补的信息:环境的颜色纹理(用于语义理解)和空间几何(用于距离与形状判断)。目前有多种3D感知技术,如立体视觉、结构光、飞行时间法(ToF)等,它们各有物理边界,没有哪一种能独立覆盖所有场景。
视觉传感器:从2D到3D
从信息维度看,人形机器人的视觉传感器可分为两大类:2D视觉提供颜色、纹理与语义信息,3D深度感知提供空间几何信息。
2D视觉主要包括普通RGB摄像头和鱼眼摄像头。RGB摄像头负责采集高分辨率彩色图像,是物体识别、人脸检测、手势识别等AI任务的输入源;鱼眼摄像头提供超广角(通常>180°)视野,常用于全景拼接或弥补盲区。2D传感器的优势是信息密度高、帧率可做到较高、成本较低,但其本身无法直接测量距离,且被动依赖环境光,在低光照或强阴影场景下表现下降。
3D深度感知进一步分为三类,各有不同的物理原理与适用场景:
被动立体视觉:通过两台或多台相机从不同视角采集图像,利用视差计算深度。无需主动投射能量,功耗低,适用于室内外常规光照;但在白墙、玻璃、光滑地面等低纹理表面上容易失效,有效距离通常不超过5–6米。
主动深度相机(结构光/ToF):结构光通过红外投影器向物体投射编码光斑,近距离精度可达毫米级,适合精细抓取和操作,但有效距离一般小于3米,室外强光下易被淹没;ToF发射红外光脉冲测量往返时间,中远距离(可达10米以上)测距能力强,适合导航与避障,但空间分辨率相对较低,多径干扰和强光下误差增大。
激光雷达:通过激光束扫描环境,直接测量点的三维坐标,输出稀疏但绝对精确的点云。激光雷达不依赖环境纹理,测距精度高(厘米级),抗环境光干扰能力强,常用于全局建图、长距离避障和定位校准。其代价是点云较稀疏,缺乏颜色和语义信息,且成本相对较高。
在实际系统中,这三类3D传感器往往分工协作:激光雷达负责远距离全局测距与地图构建,ToF或立体视觉承担中距离环境避障,结构光则用于腕部或手部的近距离精细操作;RGB摄像头始终提供语义理解的“颜色视角”。正是这种互补特性,决定了人形机器人视觉系统必然是多种传感器的集成体。
前沿趋势:从传感器堆叠走向感知智能平台
当前人形机器人面临的一大工程问题是传感器堆叠——一台机器人往往集成多种传感器,系统复杂度高、标定繁琐、功耗和成本居高不下。近年的技术演进正试图从以下几个方向实现“软融合”。
融合成像:激光雷达的图像化。随着SPAD阵列和VCSEL阵列的进步,激光雷达正从稀疏点云向“图像级”发展。例如,超线数激光雷达可生成接近2K分辨率的点云,搭配彩色滤光片后,有望实现单传感器同时输出几何信息与色彩信息。这对户外作业、工业巡检等大范围高精度建图尤为重要。
单模组多模式融合。部分方案尝试在同一模组内集成结构光与ToF,根据不同距离动态切换:近处用结构光获得毫米级精度,远处用ToF扩展至8米以上。这可以减少机器人身上的传感器数量,降低系统复杂度和标定成本。
动态视觉传感器(事件相机)。与传统帧式相机不同,事件相机在每个像素检测到亮度变化时异步输出“事件”,时间分辨率达微秒级,功耗极低,动态范围超过120dB。在人形机器人高速动态交互(如抓取坠落物体、躲避快速障碍)以及高动态光照环境(明暗快速切换)中具有独特优势。
展望未来,视觉系统的演进路径将是从多传感器冗余堆叠走向深度融合的感知智能平台:硬件层面,光学、照明、传感与计算更加一体化,出现为机器人形态定制的“感知模组”;数据层面,RGB图像、深度、点云、事件流等多模态数据在更底层(如芯片内)完成时空对齐;算法层面,深度信息不再独立输出,而是与语义理解、场景记忆、交互决策形成闭环——即所谓的“视觉皮层”功能,不仅是感知,更是理解与行动的驱动力。
对于人形机器人从业者而言,光电技术已不再是简单的硬件选型问题,而是直接影响整机稳定性、功耗、成本与部署难度的核心系统。在非结构化工厂、家庭、商业空间中,机器人能否连续8小时稳定作业,能否在从未扫过的环境中安全导航,取决于每一束红外光的投射精度、每一枚镜头的畸变控制、每一帧深度计算的延时与鲁棒性。理解这些技术背后的物理约束与工程取舍,正是把握人形机器人从“能动”走向“能用”的关键。
行业交流:从感知到落地
2026年9月9-11日,CIOE中国光博会将在深圳国际会展中心举办。其中,智能传感展特设 “具身智能展区” ,展区聚焦光电技术在具身智能中的关键作用,集中展示从核心光电元器件到3D视觉模组、激光雷达、深度相机等完整感知链路的创新产品,覆盖人形机器人环境感知、定位建图、避障导航、手眼协同等核心应用场景,为集成商、研究机构及上下游企业提供从元器件到系统集成的技术链全景视角,推动具身智能机器人从实验室走向产业化。同期还将举办“视觉感知・智造未来——具身智能机器人融合应用论坛”,围绕“视觉驱动决策,智能重塑执行”的逻辑,汇聚视觉传感器、AI算法、控制器、伺服及本体厂商,探讨视觉感知与具身智能的深度耦合,助力机器人在3C电子、新能源汽车等高端制造场景中实现价值跃升。
人形机器人的视觉系统,本质是“光”与“算”的协同。从2D成像到3D深度感知,光电技术始终在定义机器人感知世界的边界。CIOE中国光博会不仅是观察光电产业趋势的关键窗口,更是连接基础研究与场景落地、打通器件与系统、融合算法与应用的核心枢纽。2026年9月9-11日,深圳国际会展中心,期待与您共同赴约。