本文约3300

字,建议阅读7分钟

作者 | 邱晓芬

编辑 | 袁斯来

硬氪获悉,通用餐饮具身机器人公司「影智XBOT」连续完成数亿元两轮融资——其中,A轮的2亿元融资由香港简坤资本GPTX出资,B轮融资为3-5亿元人民币,由多支政府基金、美元基金和产业投资方共同参与出资。

这是目前餐饮垂直机器人领域规模最大的一笔融资之一。

在此之前,「影智XBOT」还完成了一轮天使融资,出资人阵容豪华——包括腾讯高级副总裁张小龙、小米联合创始人黎万强、黄江吉、林斌、洪锋、以及港科大首席副校长郭毅可等。

「影智XBOT」成立于2022年,其创始人唐沐称得上机器人圈的“异类”——是机器人圈CEO中罕见的产品经理出身。

(图源/企业)

在此之前,他历任金山软件、腾讯CDC总经理,负责QQ、QZone等产品的体验设计;后又担任小米生态链副总裁,先后主导推出小米路由器、小爱音箱等千万出货量的标杆爆品,做产品的经验累计达25年。

只是,当整个具身智能赛道都在为人形进家庭和工厂的叙事而疯狂时,「影智XBOT」却选择了一条看起来不那么“酷”,却能快速产品化和商业化落地的路径——让机器人在商场角落做咖啡。

与多数主流人形机器人公司不同,「影智XBOT」的技术架构围绕餐饮垂类场景设计,并以“XOS 3.0具身操作系统”为核心,采用了一脑多形的架构。

据唐沐介绍,该系统分为三层——

大脑层:负责高层认知与任务规划,搭载知味餐饮大模型,基于DeepSeek基座训练,融合了400万杯咖啡的真实出品数据;

小脑层:负责将语义指令转化为关节级控制信号,响应时间小于10毫秒,已沉淀50多种餐饮动作原子技能。

本体适配层:实现了跨形态复用,支持“一次研发,万形复用”,可将咖啡臂的控制逻辑迁移至「影智XBOT」的冰淇淋、调酒等其他机器人上。

(图源/企业)

这种架构帮助机器人规避了当前VLA(视觉-语言-动作)模型泛化难的行业痛点。

唐沐向硬氪指出,行业内普遍认为VLA泛化能力差,是因为试图让一个模型同时完成叠衣服和做饭等截然不同的任务。而「影智XBOT」的策略是限定场景,仅在异常处理时调用VLA模型作为兜底,以此节省算力并保证稳定性。

此外,「影智XBOT」还搭建了一套完整的数据飞轮。

这一系统在实验室进行仿真预训练,并在真实商业场景中进行在线强化学习,依托400万杯以上的真实作业数据持续优化;同时,通过RLHF(人类反馈强化学习),对齐300万次以上的人类偏好数据,不断提升模型表现。

而在搭好了模型、数据的基础设施底座之后,「影智XBOT」近期发布了四条产品线,覆盖不同层次的餐饮具身需求。

XBOT C3咖啡机器人:占地面积1.83平方米,采用6轴机械臂,重复定位精度±0.02毫米,每小时可出品80杯咖啡,满电状态下可连续制作150杯,配备43英寸数字人屏及“爱宝店长”Agent,售价21.9万元;

XBOT I3冰淇淋机器人:体积更小,每小时可出品60杯以上,制作失败率低于千分之五,设计寿命达25万杯,支持4种酱料和4种脆粒添加,售价17.9万元;

XBOT X1通用餐饮人形机器人:配备7轴双臂,双臂协同精度≤±1毫米,搭载单颗辉羲R1芯片,提供500TOPS本地算力,计划于2026年底量产,可实现拿取、制作、放置、递送全链路闭环,预计2026年底发售;

XBOT CUBE机器人快餐车:搭载20度电池,占地8平方米,支持咖啡、冰淇淋、调酒及烤肠等功能,上市时间待定。

唐沐向硬氪判断,由于人形和半人形并非所有场景的最优解,在未来,专用单臂机型与通用半人形机型将并行发展。

而为了保障未来的产能,目前,「影智XBOT」在南京、岳阳、上海、北京亦庄的基地年产能达2万。

不过,技术必须服务于商业闭环,唐沐用“跑滴滴”来类比「影智XBOT」的商业模式。

据其介绍,以浙江义乌某商场投放的Lite系列咖啡机器人为例,设备售价十余万元,日均出杯量约200杯,客单价约20元,单月累计营收可达6万元以上,净利润超过3万元。算下来,回本周期仅仅为6至8个月——机器设计寿命为5年,扣除回本周期后,剩余时间基本为纯利期。

(图源/企业)

唐沐以滴滴作类比:滴滴司机花费十几万元购车,还需全天绑定在车辆上,而同等价格的机器人仅需每天进行一次补料维护。从商业逻辑上看,咖啡机器人本质上是一台更高效的生产资料。

基于此,XBOT没有采用行业常见的租赁模式。唐沐认为,租赁并不适合机器人时代,为此,「影智XBOT」推行RaaS模式(Robot as a Service,机器人即服务),

据唐沐介绍,未来加盟商支付机器成本后,还需按月缴纳三项费用,包括物料订阅费(咖啡豆、奶制品等)、Agent Token费(爱宝店长数字人服务)、以及维修保养费。

值得注意的是,目前,行业内仅有「影智XBOT」持有“全国全品类食品经营许可证资质”,这使得公司能够合法合规地控制供应链,从而锁定RaaS闭环。

在客户结构方面,「影智XBOT」锁定了非咖啡连锁的异业客户,比如奢侈品店、家居店、4S店等。

同时,「影智XBOT」也为京东七鲜咖啡、亦庄机器人、菲柯机器人(FICO咖啡)、吉旅控股(吉林冰雪文旅)、博物天行(文博场馆)提供解决方案,并与拥有四千多家门店的亚洲咖啡品牌共同探索海外市场。

截至目前,「影智XBOT」的咖啡机器人已在全球100+城市落地1000+台,产出咖啡超过400万杯。2025年,「影智XBOT」营收已突破1亿元。唐沐向硬氪表示,2026年,「影智XBOT」手握的订单金额已接近3-5亿元。

而在成立短短四年内快速跑通技术、产品和商业闭环,有赖于「影智XBOT」核心团队“铁军”。

有意思的是,「影智XBOT」团队配置不同于典型的机器人公司,更像是一家成熟消费品公司与AI公司的结合。

据介绍,「影智XBOT」的机器人技术板块由王嘉力主导,作为哈工大机电博士,他曾任航天科工、三一集团、新松机器人等企业高管。

「影智XBOT」的运营板块则由“瑞幸系”班底组成,其中包含曾负责大区超高体量门店连锁运营、品牌标准化体系、连锁培训体系搭建相关工作的曹锐锟、于涛等人。

以下是硬氪与唐沐的对话节选:

硬氪:选择切入商业场景,是基于什么考量?

唐沐:这个推导过程非常线性。第一步,我会首先排除toC家庭场景,当时观察行业趋势,很多团队前赴后继地训练机器人叠衣服、煮饭,钱烧了但结果不尽如人意,结论是除了扫地机器人这种用途被严格圈死的品类,通用家庭机器人短期内并不可行。

第二步,排除toB工业场景。黑灯工厂里传统的机械臂已经足够高效、稳定,根本没有空间让一个步履蹒跚、行为不可预测的人形机器人进去拖慢速度。工业场景不需要人形,需要的是效率。

第三步,锁定toB商业场景。既然家庭和工厂都不合适,那就在商业里寻找最大、最高频刚需且在增长的生意。推演下来,咖啡是最优解——它是全球通用的高频饮品,标准化程度高,且正处于快速增长期。所以,我们做咖啡机器人不是拍脑袋的灵感,而是排除了错误答案后,逻辑推导的必然产物。

硬氪:今年以来人形机器人估值飙升,而你们坚持做非人形垂类,你怎么看待这种形态选择?

唐沐:马斯克说人形符合第一性原理,但在很多工作场合,人形其实是累赘。长腿本身就要消耗大量算力和电力,站起来只为“看起来像人”,并不解决实际需求。我们的逻辑是,非人形在很多场合能完成人干不了的事,反而更重要。

硬氪:在硬件选型上,你们坚持用六轴工业臂、夹爪、谐波减速器这些成熟的供应链产品,为什么?

唐沐:商业场景的第一准则是稳定,不是炫技。五指灵巧手标称能开合10万次,但在商场里,一旦抓空导致咖啡洒了,当天经营就会受影响,所以我们只用工业验证过的夹爪。关节也是同理,行星减速器只适合“摆大致动作”,而谐波在重复定位精度、量产成本和使用寿命上都赢。商业不接受实验室里的“大概齐”,必须追求确定性的“精准”。

硬氪:现在很多公司都在讲“通用具身智能”,你们却把场景限定在餐饮,这会限制未来的想象力吗?

唐沐:想象力不在于场景宽不宽,而在于能不能打透。过去有一段时间大家觉得“VLA已死”,是因为想让它既叠衣服又做饭,这在通域里确实难。但在垂域里,把活限定死,它就会好用。就像黑灯工厂里的机械臂,连眼睛都不用长,单一活低成本干好就行。

我们甚至大部分时候连VLA都不想触发,只在异常处理时才调用,省算力。将来几乎所有产品都会具身化,但不可能都变成机器人。所以,「影智XBOT」的目标是把餐饮这个垂直场景打透,通过“作业-数据-模型”的飞轮,成为具身智能时代的SaaS公司。

首页图源 | 企业供图

排版|范馨雅

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8uQLp6jNQUJ