文 / 赵晓光
引言
机器人,一种从科幻小说走到现实生活的传奇机器,经历了70年的发展历程。首先,以机械臂的形态出现在工业流水线上,替代人力完成重复性的工作;然后,自动清扫的扫地机器人进入家庭;最近两年,能跑会跳能做各种体操动作的人形机器人成为机器人中的亮点。机器人技术的发展史,是人类对“机器拥有智能”的不懈探索。近年来,随着大语言模型(LLM)等人工智能技术的突破,一种新的智能形态逐渐走入我们的视野:具身智能(Embodied AI)。它不再是计算机中的软件,而是通过物理实体与真实世界连接、交互,能自主学习并适应环境的智能体。从“机器智能”到“具身智能”,这场跨越半个多世纪的进化,正在重新定义人与智能的关系。
一、机器人:从“执行工具”到“感知主体”的进化
机器人技术的发展,本质是“硬件躯体”与“软件智能”不断融合、互相促进的过程,大致可以分为3段演进历程。
1.20世纪50年代到80年代(1959年至1989年),机器人是一个“没有大脑的躯体”。1954年,美国工程师乔治·德沃尔发明了第一台工业机器人Unimate,它能通过液压驱动完成抓取、焊接等重复动作,但“智能”仅限于提前编制调试好的程序,对外界环境的变化没有适应能力,相当于“只有躯体,没有大脑”。这一时期的机器人以“机械臂”为代表,核心是运动控制,用于替代人工完成危险、艰苦的重复性劳动,如汽车制造中的焊接、搬运。
2.20世纪90年代至21世纪初,随着计算机、光电技术、材料与传感器(如摄像头、红外传感器)等相关学科和技术的飞速发展,机器人开始具备“感知”外部环境的能力,机器人进入到自动化与感知萌芽阶段,成为“有了感知能力的执行机器”。例如,1997年,本田发布人形机器人ASIMO,能通过视觉传感器识别障碍物、规划行走路径;2002年,iRobot推出Roomba扫地机器人,通过红外和碰撞传感器感知环境并自主清扫。这一阶段的机器人实现了“感知—执行”闭环,但智能仍局限于特定场景,无法应对复杂环境变化。
3.2010年至2022年,移动互联网和深度学习的爆发,让机器人从“单个执行机器”升级为“与人交互协作智能体”,进入智能交互时代。机器人成为“会‘思考’的协作者”,语音助手(聊天机器人Siri、自动接听电话的客服)、服务机器人(酒店配送机器人、商场导购机器人等)开始投入使用,这些机器人通过语音、图像与人类交互,甚至完成简单的决策(如通过识别语音内容进入下一步操作、自动避开动态障碍物等)。但这些“智能”仍依赖预设规则和云端计算,缺乏自主学习和环境适应能力——例如,传统服务机器人遇到预设程序中没有设定的障碍物时,往往会“卡住”。
二、大模型:具身智能的“大脑”
2022年以来,大模型的发展与应用突飞猛进,如果说机械躯体是具身智能的“四肢”,那么大模型(如GPT、LLaMA、文心一言等)就是它的“大脑”。大模型的突破,为机器人从“自动化工具”跃升为“具身智能体”提供了关键支撑。
传统机器人的“智能”是“碎片化”的——针对单一任务(如分拣、导航)编写特定算法,换个场景就需要重新编程。而大模型通过海量数据训练,具备跨模态“理解”(文字、图像、语音融合)、知识迁移(将A任务经验应用到B任务)和上下文学习(通过少量示例快速适应新场景)能力。例如,当大模型与机器人结合,只需人类用自然语言说“把桌上的苹果递给我”,机器人就能理解“苹果”的视觉特征、“递给我”的空间位置,并规划抓取路径——这在传统机器人时代需要编写大量代码。
大模型最初擅长“语言交互”,但具身智能需要“行动落地”。近年来,研究人员通过大模型与机器人技术结合,采用“具身微调”(Embodied Fine-tuning)让大模型“学会行动”:在虚拟环境(如模拟家庭、工厂)中,让大模型控制虚拟机器人完成任务(如整理房间、组装零件),通过强化学习优化动作策略,再将虚拟环境中的经验迁移到真实机器人。
三、具身智能:定义、特征与前沿趋势
1.具身智能含义
具身智能的核心是“具身性”与“交互性”,具身即拥有物理躯体(如人形、机械臂、柔性机器人),能通过躯体感知环境(视觉、触觉、听觉等);交互即能与物理世界(物体、人类、环境)动态交互,并通过交互学习优化行为。例如,人类的儿童通过触摸认识“烫”,具身智能则通过与环境的互动与反复试错,通过传感器反馈理解“抓取力度过大会捏碎杯子”。简单说,传统AI是“在计算机中思考”,具身智能是“走进真实世界学习”。
2.前沿发展趋势
具身智能正朝着“更像人”的方向进化,呈现出四大前沿趋势:
一是多模态融合感知,不再依赖单一传感器,而是像人类一样“眼观六路、耳听八方”。例如,人形机器人通过摄像头、激光雷达、触觉传感器融合,能识别物体材质(软/硬)、判断地面平整度(滑/涩)。
二是自主化学习能力,从“人类教”到“自己学”。例如,机器人能通过观察人类做饭的视频,自主模仿并学会使用菜刀、锅铲,无需人工编程。
三是人机协作能力,从“人机分工”到“人机共融”。在制造业中,具身智能机器人能与工人“配合”:工人用手势示意“这里需要拧紧螺丝”,机器人立即调整工具角度并完成操作,还能根据工人的工作节奏动态调整速度。
四是柔性化与仿生设计,躯体从“刚性机械”向“柔性仿生”进化。例如,像章鱼一样的“软体机器人”,用柔软材料制成,能钻进狭小管道完成检测;采用功能材料研制的“仿生手”,能通过肌电传感器感知人类手臂肌肉信号,实现“意念控制”抓取等。
四、具身智能的关键技术:“四肢”与“神经”的协同
从机器人到具身智能的实现,需要在五大核心技术领域取得突破。
1.多模态感知技术
具身智能体需要具备人类感知世界的主要五种感官的功能,包括视觉,高分辨率摄像头、3D激光雷达(LiDAR),用于识别物体、定位导航;触觉,柔性触觉传感器(如压阻、电容传感器),感知压力、温度、材质;听觉,降噪麦克风阵列,识别语音指令、环境声音(如婴儿哭声、警报声);嗅觉/味觉(前沿),气体传感器、化学传感器,用于危险品检测(如燃气泄漏)、食品质量判断。
2.运动控制与驱动技术
支持机器人运动的“肌肉”与“关节”,包括仿生关节,如人形机器人的“髋关节”“肘关节”,需要模拟人类关节的多自由度运动;柔顺控制需要通过力反馈算法,让机器人动作“轻柔”(如抓取柔软的蛋糕时,要自动调整力度,避免挤压)。
3.决策与智能算法
模仿人类决策的“思考逻辑”,包括强化学习,通过“试错”优化行为(如机器人学走路时,摔倒后调整步态);迁移学习,将A场景经验(如在实验室开门)迁移到B场景(如家庭开门);因果推理,理解“动作—结果”关系(如“推杯子会导致掉落”),避免危险行为。
4.能源与材料技术
具身智能体的“续航与韧性”,包括柔性材料,如硅胶、形状记忆合金,让机器人躯体更灵活、更安全(碰撞时不易伤人);长效能源,如高密度电池(如固态电池)、无线充电技术,解决“续航时间”不足问题。
5.人机交互技术
涵盖自然语言交互,包括大模型加持下的语音对话(如“帮我把药放在床头”)等;非语言交互,包括手势识别、表情识别(如机器人通过观察人类皱眉,判断“操作错误”)等。
五、北京市具身智能技术发展现状:政策、产业与场景落地
作为国际科技创新中心,北京正成为具身智能技术研发与应用的“前沿阵地”,形成了“政策引导—企业主导—产学研协同”的发展格局。
1.政策支持强劲有力
北京“十四五”规划明确提出“突破具身智能等前沿技术”,将其列为国际科技创新中心建设的重点领域。2023年发布的《北京市机器人产业创新发展行动方案(2023-2025年)》,专门支持“人机协作机器人”“仿生机器人”研发。2025年发布的《北京具身智能科技创新与产业培育行动计划》,设立政府投资基金,重点支持人工智能、机器人等未来产业领域,积极引导社会资本投入关键共性技术攻关和产业化项目,同时还构建高能级创新平台,推动产学研协同创新和国际合作,并加快场景开放与规模化应用。
2.两新融合催生产业集群
科研机构努力突破核心技术,抢占科技制高点。例如,中国科学院自动化研究所面向国家航天、高端智能制造等领域的重大应用需求,研发了身高1.8米的Q系列人形机器人,自主突破了高爆一体化关节、AI赋能设计、机器人大模型、类人柔顺控制等关键技术;北京智源研究院推出的“具身智能开放平台”,向企业提供感知算法、仿真环境等工具和训练数据集。高校在理论创新与核心零部件研究中大显身手,清华大学、北京理工大学等高校实验室,在柔性传感器、脑机接口(BCI)等核心技术上处于国际领先地位,清华团队研发的“纸质触觉传感器”,成本仅为传统传感器的1/10,有望大规模量产。企业加大实际应用研发,优必选北京公司的人形机器人Walker X,已能在商场场景实现导览、端茶等服务;北京钢铁侠科技的“灵蜥”仿生机器人,可进入核辐射、火灾等高危环境作业;加速进化机器人公司的人形机器人自主完成3V3足球赛;全球首个人形机器人半程马拉松比赛中,天工人形机器人奔跑21公里夺冠,松岩动力机器人身材小能量大斩获亚军。
3.具身智能与实体经济紧密融合
在制造业场景中,北京奔驰工厂的“人机协作机器人”,与工人共同组装汽车内饰,生产效率提升30%;在服务业场景中,北京协和医院的“手术辅助机器人”,通过触觉反馈帮助医生精准缝合微小血管;在家庭应用场景中,北京多家科技公司的“养老陪护机器人”,能监测老人心率、提醒吃药,还能通过触觉传感器感知老人摔倒并报警。
六、具身智能的法律挑战:“智能体”时代的规则之问
随着具身智能从实验室走向实际应用,一系列法律与伦理问题逐渐浮现,对社会治理与法律制定提出了一系列挑战,主要体现在以下4个方面。
1.数据隐私风险:具身智能收集的信息所有权归谁?
具身智能通过传感器(摄像头、麦克风)持续收集环境数据(如家庭布局、人脸图像、对话内容),可能侵犯隐私。例如,家庭服务机器人记录的“老人起床时间”“用户饮食习惯”等数据,若被企业非法出售,可能存在不公平竞争、甚至威胁个人安全的隐患。
2.责任划分难题:机器人造成的人员伤害谁来担责?
当具身智能自主决策导致人身损害(如手术机器人失误致患者受伤、配送机器人撞伤行人),责任如何划分?是开发者(算法缺陷)、使用者(操作不当)还是机器人“自主行为”?现行法律(如《民法典》)仅对“产品责任”有规定,但未明确“自主决策机器人”的责任主体。
3.伦理边界争议:具身智能自主决策的“红线”应该画在哪里?
具身智能的“自主学习”能力,可能支持其突破预设规则。例如,安保机器人若通过学习认为“暴力制服可疑人员更高效”,是否会违反“不伤害人类”的伦理原则?
4.知识产权模糊:算法、训练数据、硬件设备的归属如何界定?
具身智能的核心是“硬件+算法+数据”的融合:硬件专利、算法著作权、训练数据权属,可能分属不同主体(如高校研发算法、企业生产硬件、医院提供医疗数据),一旦产生收益,如何分配?
七、应对建议:构建具身智能的“规则护栏”
面对上述挑战,需从立法、监管、技术等多维度协同应对。尤其是北京市作为国际科技创新中心,已经成为全国具身智能领域的制高点,科技创新的飞速发展,更需要“规则护栏”紧紧跟上,在北京市立法与社会治理层面,有如下4点建议。
1.建议通过完善专项立法,明确权利与责任
建议制定《具身智能安全与伦理条例》,界定“数据收集边界”(如禁止机器人在卧室安装摄像头)、“责任划分标准”(如根据自主决策程度,分为“完全人工控制”“半自主”“全自主”三级责任);设立“具身智能数据保护”专章,要求企业对收集的环境数据进行匿名化处理,用户有权查看、删除自己的信息。
2.建议制定分级分类监管框架
建议按“应用场景风险等级”监管:工业机器人(低风险)、医疗/养老机器人(中风险)、安保/军事机器人(高风险),高风险领域需通过“安全认证”方可上市;建议推行“沙盒监管”:在特定区域(如科技园区)试点具身智能应用,允许企业在可控环境中测试新技术,同时收集风险数据用于规则优化。
3.建议推动制定行业标准与伦理指南
建议由政府、企业、学界联合制定技术标准,如“触觉传感器安全阈值”“自主决策透明度要求”(机器人需记录决策过程,方便追溯)等;建议发布《具身智能伦理指南》,明确“不得设计具有自主伤害能力的机器人”“禁止利用机器人从事非法监控”等底线原则。
4.建议加强国际合作与公众教育
建议推动全球统一标准,具身智能是全球性技术,需与欧盟(如《人工智能法案》)、美国等国家或地区协同,避免“规则碎片化”;建议通过科普宣传让公众了解具身智能的“能力边界”,例如在产品说明书中注明“本机器人无法处理火灾等紧急情况,请及时拨打报警电话”等。
结束语
从工业机械臂到智能机器人再到具身智能,人类用技术为“机器”赋予了“感知”“思考”与“行动”的能力。具身智能不仅是人工智能的下一个发展前沿,更是“人机共生”时代的起点——将重塑制造业、服务业、医疗等千行百业,也将深刻改变人类的生活、生产乃至思维方式。技术的进步永远需要规则的护航。唯有通过“技术创新+法律规范+伦理引导”的协同,才能让具身智能真正成为服务人类的“伙伴”,让我们以开放而审慎的态度,迎接这场“具身化”的科技革命。
(作者系北京市十六届人大代表,中国科学院自动化研究多模态人工智能系统全国重点实验室研究员)