造机器人为何要指望手机厂商？

访客 2025-03-27 11:51:45 71566

默认

题图｜视觉中国

这世界上已经没有什么是手机厂商不能干的了。

3月25日，在今年的博鳌亚洲论坛上，vivo执行副总裁、首席运营官、中央研究院院长胡柏山宣布vivo“成立了机器人Lab，布局机器人赛道”。这家蝉联四年中国市场手机份额第一的厂商，不仅要把AI代表的数字世界和机器人代表的物理世界连接起来，而且还把机器人放到了“手机的未来”这样重要的战略地位。

但是等一下。机器人，手机，未来？这有点儿远了吧。

诚然，手机确实是当下最智能的生产力工具。机器人也承载了人们对于未来生产力发展的想象。不过，在造手机和造机器人之间，似乎并没有什么必然联系。

造手机的为什么要造机器人？甚至，手机厂商能造好机器人吗？

然而，胡柏山却认为手机厂商在机器人领域有巨大的发挥空间。甚至，让机器人引爆市场，成为消费级产品的关键就在手机厂商手中。

尴尬：红利与瓶颈同时到来

按照胡柏山的观点，人工智能代表数字世界，机器人代表物理世界，这两个世界之间有巨大的鸿沟。打个比方来说，就是要把《流浪地球》里的MOSS，具象化变成《终结者》里的T800，还有很长的路要走。当然，我们就算离MOSS也还很远。

这确实是当下机器人产业的尴尬之处。

目前的机器人，更像是一具灵活的躯体。无论是工业还是服务业，机器人产品对外部世界的感知仍然受限于特定的工作环境，需要人的频繁调教。实际上，即便当下最炙手可热的机器人，也仅处于小脑刚发育，大脑不成熟的阶段。

一言以蔽之，现阶段的机器人们，最大的问题是“不太通人性”。具体表现有二：

一是人话听不懂，情绪价值也给不到。

比如，在商场和机场这些嘈杂环境中，服务机器人语音识别准确率会下降至75%以下，而老年用户因口音或方言导致的识别失败率高达40%。在新闻报道中，用户花了重金购回机器人，却因为口音问题无法交流的例子比比皆是。

即便过了“语言关”，无法理解“把咖啡送到三楼会议室2号桌”这样的连续目的性句子也是家常便饭。用这样的识别精度去辨认人类感情就更难了。比如，日本软银Pepper机器人虽宣称支持情感交互，但实际的表情识别准确率仅65%。一些大学的实验室准确度或许在80%以上，但实测成绩也会打较大折扣。

二是环境复杂了会“犯迷糊”。

工业机器人领域的情况要好些。因为工业机器人的位置普遍固定，物料也是按照规范摆放。但是，如果遇到物料散乱的场景，识别准确率也会大幅下降到60%到70%。

服务机器人这边就不容乐观了。因为要进入的环境不可控因素太多，人流或者复杂地形（即便对人类来说并不复杂）都会频繁导致动作规划偏差，嘈杂的环境会降低语音识别度，遮挡或者光线变换会降低视觉识别度。拜此所赐，我们能看到大量的机器人翻车搞笑视频，这情绪价值倒是拉满了。

所以有人说，目前的人形机器人还是“大玩具”也有一定道理。

求解：机器人究竟卡在哪儿了？

可以说，现在的机器人处于“能看”的阶段，距离“能用”还有较大的距离，遑论满足人们的期待了。

那机器人究竟卡在哪儿了？原因有很多，但最关键的是多模态感知技术的瓶颈。

须知，机器人与人类在感知方面几乎是在两个完全不同的世界。如果把看、听、摸这些都算是“信号”的话。从单项能力来看，机器人通过传感器能感知的比人类神经和细胞感知的要快得多，远得多，广得多。激光雷达能扫描200米远，MEME麦克风能接收的声波范围是人类的5倍，电容式传感器的微小压力精度是人类的10倍。

同时，不幸（或许也是万幸）的是，机器人即便能感知信号，也没有神经网络。因此，在整合信号形成认知，然后再根据认知做出决策方面，机器人的能力与人类大脑相去甚远。因此，即便有的机器人已经能唱跳武打，却仍然需要配一个人类“保姆”外加遥控器。

而把这些所有的信号整合在一起的能力，就是多模态感知能力。

因此，机器人总看起来一副憨憨的样子。而为了能让机器人更像人类，包括OpenAI、DeepSeek、三星、苹果和vivo，都开始研究提升机器人的多模态感知能力。可以说，这是一道机器人产业发展的必答题。

问题是，找到题目后，人们发现也不是“干就完了”那么简单。因为，机器人本身是研发与制造业，现在又涉及了AI、感知技术和消费者需求洞察，不是纯文也不是纯理，而是一个“大综合”。

“拔剑四顾心茫然”，能凑齐上面所有技术能力的企业，好像也只有手机厂商了。

卡位：手机厂商的优势水到渠成

在今年的博鳌论坛上，vivo在宣布进军机器人行业的同时，提出了“成为桥梁”的理念。

vivo执行副总裁、首席运营官、中央研究院院长胡柏山

什么是“成为桥梁”？事实上，vivo已经在手机领域演示过一次。作为当今智能化程度最高的生产力工具，手机本身就是数字世界和物理世界最大的桥梁。vivo是手机品牌中当之无愧的第一梯队，连续四年蝉联中国手机市场占有率第一的品牌。在登顶手机市场的过程中，vivo已经形成了一套理解需求，技术突破，满足场景的成熟方法论。

如今，在机器人领域，只需将方法论平移即可。

从技术实力上看，vivo是目前少有的精于感知技术，还有AI能力，又深耕制造业的厂商。而这些技术恰是机器人领域所需要的：

一是感知技术，也就是混合现实能力。vivo研发的vivo看见、vivo听说等功能，已经成功让视障和听障患者借助手机感知到世界真实的样子。而在vivo的武器库中，还有更多的技术储备。

比如VCS仿生光谱技术能够模仿人眼的光谱响应曲线，1英寸超大底传感器能够实现毫米级环境建模精度。而SLAM空间计算技术则能以每秒30帧的速度，以低于2%的低误差实时生成三维地图。有了这些技术，机器人看世界就能尽量像人眼一样看色彩，辨方位。

二是AI能力。vivo蓝心大模型高达92%的多模态识别准确率也是机器人所需要的。更重要的是，蓝心大模型的AI训练数据直接来源于5亿用户的真实交互场景，涵盖了方言指令、嘈杂环境下的语音样本以及家庭场景的视觉数据。谢天谢地，用户不需要再过“语言关”了。

不仅如此，手机厂商的AI直接嵌入手机应用的各种场景，是直接服务用户的AI，自然也最懂消费者。这使得vivo拥有让机器人精准执行复杂指令的能力。比如“先点杯咖啡再送到三楼”。甚至，因为拥有众多场景，还可以预判用户的需求，先问一句“coffee or tea？”

上面的两大能力结合，已经基本保证vivo出手的机器人会拥有发育健全的大脑。拥有比较高的技术上限。

在此之外，手机厂的供应链话语权优势不可小觑。这意味着更精密的组装，更快速地落地，更大规模的制造。同时，vivo强调，自己要聚焦于机器人的“眼睛和大脑”，主攻消费级市场，研发个人和家庭场景的机器人产品，回归场景，解决痛点，迭代产品，而身子、手臂则是交给合作伙伴来完成。这也体现了vivo作为产业链链主企业的格局。

而所有这一切，都推向一个结果：手机厂商是把机器人产业带入消费级产品时代的最佳选择。

尾声：未来还有多远？

或许，3～5年后，我们会看到能力完全超越现有机器人的原型机。并且，在这个过程中，应该也会不断有新的惊喜出现。

当然，这个过程注定不会过于顺利，但却值得我们为之期待。

而我们期待的，或许是继手机和电脑之后的终极效率机器；或许是来自硅基世界的智能伙伴；又或许只是对科学幻想的印证……只要想到前方或许又是一个人类科技史上的“iPhone”时刻，这期待本身就已足够有趣。

本内容为作者独立观点，不代表环球财经网立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

标签：机器人能力