小米前高管唐沐创业咖啡机器人，完成数亿融资，张小龙、黎万强投过

本文约3300

字，建议阅读7分钟

作者 | 邱晓芬

编辑 | 袁斯来

硬氪获悉，通用餐饮具身机器人公司「影智XBOT」连续完成数亿元两轮融资——其中，A轮的2亿元融资由香港简坤资本GPTX出资，B轮融资为3-5亿元人民币，由多支政府基金、美元基金和产业投资方共同参与出资。

这是目前餐饮垂直机器人领域规模最大的一笔融资之一。

在此之前，「影智XBOT」还完成了一轮天使融资，出资人阵容豪华——包括腾讯高级副总裁张小龙、小米联合创始人黎万强、黄江吉、林斌、洪锋、以及港科大首席副校长郭毅可等。

「影智XBOT」成立于2022年，其创始人唐沐称得上机器人圈的“异类”——是机器人圈CEO中罕见的产品经理出身。

（图源/企业）

在此之前，他历任金山软件、腾讯CDC总经理，负责QQ、QZone等产品的体验设计；后又担任小米生态链副总裁，先后主导推出小米路由器、小爱音箱等千万出货量的标杆爆品，做产品的经验累计达25年。

只是，当整个具身智能赛道都在为人形进家庭和工厂的叙事而疯狂时，「影智XBOT」却选择了一条看起来不那么“酷”，却能快速产品化和商业化落地的路径——让机器人在商场角落做咖啡。

与多数主流人形机器人公司不同，「影智XBOT」的技术架构围绕餐饮垂类场景设计，并以“XOS 3.0具身操作系统”为核心，采用了一脑多形的架构。

据唐沐介绍，该系统分为三层——

大脑层：负责高层认知与任务规划，搭载知味餐饮大模型，基于DeepSeek基座训练，融合了400万杯咖啡的真实出品数据；

小脑层：负责将语义指令转化为关节级控制信号，响应时间小于10毫秒，已沉淀50多种餐饮动作原子技能。

本体适配层：实现了跨形态复用，支持“一次研发，万形复用”，可将咖啡臂的控制逻辑迁移至「影智XBOT」的冰淇淋、调酒等其他机器人上。

（图源/企业）

这种架构帮助机器人规避了当前VLA（视觉-语言-动作）模型泛化难的行业痛点。

唐沐向硬氪指出，行业内普遍认为VLA泛化能力差，是因为试图让一个模型同时完成叠衣服和做饭等截然不同的任务。而「影智XBOT」的策略是限定场景，仅在异常处理时调用VLA模型作为兜底，以此节省算力并保证稳定性。

此外，「影智XBOT」还搭建了一套完整的数据飞轮。

这一系统在实验室进行仿真预训练，并在真实商业场景中进行在线强化学习，依托400万杯以上的真实作业数据持续优化；同时，通过RLHF（人类反馈强化学习），对齐300万次以上的人类偏好数据，不断提升模型表现。

而在搭好了模型、数据的基础设施底座之后，「影智XBOT」近期发布了四条产品线，覆盖不同层次的餐饮具身需求。

XBOT C3咖啡机器人：占地面积1.83平方米，采用6轴机械臂，重复定位精度±0.02毫米，每小时可出品80杯咖啡，满电状态下可连续制作150杯，配备43英寸数字人屏及“爱宝店长”Agent，售价21.9万元；

XBOT I3冰淇淋机器人：体积更小，每小时可出品60杯以上，制作失败率低于千分之五，设计寿命达25万杯，支持4种酱料和4种脆粒添加，售价17.9万元；

XBOT X1通用餐饮人形机器人：配备7轴双臂，双臂协同精度≤±1毫米，搭载单颗辉羲R1芯片，提供500TOPS本地算力，计划于2026年底量产，可实现拿取、制作、放置、递送全链路闭环，预计2026年底发售；

XBOT CUBE机器人快餐车：搭载20度电池，占地8平方米，支持咖啡、冰淇淋、调酒及烤肠等功能，上市时间待定。

唐沐向硬氪判断，由于人形和半人形并非所有场景的最优解，在未来，专用单臂机型与通用半人形机型将并行发展。

而为了保障未来的产能，目前，「影智XBOT」在南京、岳阳、上海、北京亦庄的基地年产能达2万。

不过，技术必须服务于商业闭环，唐沐用“跑滴滴”来类比「影智XBOT」的商业模式。

据其介绍，以浙江义乌某商场投放的Lite系列咖啡机器人为例，设备售价十余万元，日均出杯量约200杯，客单价约20元，单月累计营收可达6万元以上，净利润超过3万元。算下来，回本周期仅仅为6至8个月——机器设计寿命为5年，扣除回本周期后，剩余时间基本为纯利期。

（图源/企业）

唐沐以滴滴作类比：滴滴司机花费十几万元购车，还需全天绑定在车辆上，而同等价格的机器人仅需每天进行一次补料维护。从商业逻辑上看，咖啡机器人本质上是一台更高效的生产资料。

基于此，XBOT没有采用行业常见的租赁模式。唐沐认为，租赁并不适合机器人时代，为此，「影智XBOT」推行RaaS模式（Robot as a Service，机器人即服务），

据唐沐介绍，未来加盟商支付机器成本后，还需按月缴纳三项费用，包括物料订阅费（咖啡豆、奶制品等）、Agent Token费（爱宝店长数字人服务）、以及维修保养费。

值得注意的是，目前，行业内仅有「影智XBOT」持有“全国全品类食品经营许可证资质”，这使得公司能够合法合规地控制供应链，从而锁定RaaS闭环。

在客户结构方面，「影智XBOT」锁定了非咖啡连锁的异业客户，比如奢侈品店、家居店、4S店等。

同时，「影智XBOT」也为京东七鲜咖啡、亦庄机器人、菲柯机器人（FICO咖啡）、吉旅控股（吉林冰雪文旅）、博物天行（文博场馆）提供解决方案，并与拥有四千多家门店的亚洲咖啡品牌共同探索海外市场。

截至目前，「影智XBOT」的咖啡机器人已在全球100+城市落地1000+台，产出咖啡超过400万杯。2025年，「影智XBOT」营收已突破1亿元。唐沐向硬氪表示，2026年，「影智XBOT」手握的订单金额已接近3-5亿元。

而在成立短短四年内快速跑通技术、产品和商业闭环，有赖于「影智XBOT」核心团队“铁军”。

有意思的是，「影智XBOT」团队配置不同于典型的机器人公司，更像是一家成熟消费品公司与AI公司的结合。

据介绍，「影智XBOT」的机器人技术板块由王嘉力主导，作为哈工大机电博士，他曾任航天科工、三一集团、新松机器人等企业高管。

「影智XBOT」的运营板块则由“瑞幸系”班底组成，其中包含曾负责大区超高体量门店连锁运营、品牌标准化体系、连锁培训体系搭建相关工作的曹锐锟、于涛等人。

以下是硬氪与唐沐的对话节选：

硬氪：选择切入商业场景，是基于什么考量？

唐沐：这个推导过程非常线性。第一步，我会首先排除toC家庭场景，当时观察行业趋势，很多团队前赴后继地训练机器人叠衣服、煮饭，钱烧了但结果不尽如人意，结论是除了扫地机器人这种用途被严格圈死的品类，通用家庭机器人短期内并不可行。

第二步，排除toB工业场景。黑灯工厂里传统的机械臂已经足够高效、稳定，根本没有空间让一个步履蹒跚、行为不可预测的人形机器人进去拖慢速度。工业场景不需要人形，需要的是效率。

第三步，锁定toB商业场景。既然家庭和工厂都不合适，那就在商业里寻找最大、最高频刚需且在增长的生意。推演下来，咖啡是最优解——它是全球通用的高频饮品，标准化程度高，且正处于快速增长期。所以，我们做咖啡机器人不是拍脑袋的灵感，而是排除了错误答案后，逻辑推导的必然产物。

硬氪：今年以来人形机器人估值飙升，而你们坚持做非人形垂类，你怎么看待这种形态选择？

唐沐：马斯克说人形符合第一性原理，但在很多工作场合，人形其实是累赘。长腿本身就要消耗大量算力和电力，站起来只为“看起来像人”，并不解决实际需求。我们的逻辑是，非人形在很多场合能完成人干不了的事，反而更重要。

硬氪：在硬件选型上，你们坚持用六轴工业臂、夹爪、谐波减速器这些成熟的供应链产品，为什么？

唐沐：商业场景的第一准则是稳定，不是炫技。五指灵巧手标称能开合10万次，但在商场里，一旦抓空导致咖啡洒了，当天经营就会受影响，所以我们只用工业验证过的夹爪。关节也是同理，行星减速器只适合“摆大致动作”，而谐波在重复定位精度、量产成本和使用寿命上都赢。商业不接受实验室里的“大概齐”，必须追求确定性的“精准”。

硬氪：现在很多公司都在讲“通用具身智能”，你们却把场景限定在餐饮，这会限制未来的想象力吗？

唐沐：想象力不在于场景宽不宽，而在于能不能打透。过去有一段时间大家觉得“VLA已死”，是因为想让它既叠衣服又做饭，这在通域里确实难。但在垂域里，把活限定死，它就会好用。就像黑灯工厂里的机械臂，连眼睛都不用长，单一活低成本干好就行。

我们甚至大部分时候连VLA都不想触发，只在异常处理时才调用，省算力。将来几乎所有产品都会具身化，但不可能都变成机器人。所以，「影智XBOT」的目标是把餐饮这个垂直场景打透，通过“作业-数据-模型”的飞轮，成为具身智能时代的SaaS公司。

首页图源 | 企业供图

排版｜范馨雅

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8uQLp6jNQUJ

小米前高管唐沐创业咖啡机器人，完成数亿融资，张小龙、黎万强投过

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

小米前高管唐沐创业咖啡机器人，完成数亿融资，张小龙、黎万强投过

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索