
造机器人为何要指望手机厂商?

题图|视觉中国
这世界上已经没有什么是手机厂商不能干的了。
3月25日,在今年的博鳌亚洲论坛上,vivo执行副总裁、首席运营官、中央研究院院长胡柏山宣布vivo“成立了机器人Lab,布局机器人赛道”。这家蝉联四年中国市场手机份额第一的厂商,不仅要把AI代表的数字世界和机器人代表的物理世界连接起来,而且还把机器人放到了“手机的未来”这样重要的战略地位。
但是等一下。机器人,手机,未来?这有点儿远了吧。
诚然,手机确实是当下最智能的生产力工具。机器人也承载了人们对于未来生产力发展的想象。不过,在造手机和造机器人之间,似乎并没有什么必然联系。
造手机的为什么要造机器人?甚至,手机厂商能造好机器人吗?
然而,胡柏山却认为手机厂商在机器人领域有巨大的发挥空间。甚至,让机器人引爆市场,成为消费级产品的关键就在手机厂商手中。
尴尬:红利与瓶颈同时到来
按照胡柏山的观点,人工智能代表数字世界,机器人代表物理世界,这两个世界之间有巨大的鸿沟。打个比方来说,就是要把《流浪地球》里的MOSS,具象化变成《终结者》里的T800,还有很长的路要走。当然,我们就算离MOSS也还很远。
这确实是当下机器人产业的尴尬之处。
目前的机器人,更像是一具灵活的躯体。无论是工业还是服务业,机器人产品对外部世界的感知仍然受限于特定的工作环境,需要人的频繁调教。实际上,即便当下最炙手可热的机器人,也仅处于小脑刚发育,大脑不成熟的阶段。
一言以蔽之,现阶段的机器人们,最大的问题是“不太通人性”。具体表现有二:
一是人话听不懂,情绪价值也给不到。
比如,在商场和机场这些嘈杂环境中,服务机器人语音识别准确率会下降至75%以下,而老年用户因口音或方言导致的识别失败率高达40%。在新闻报道中,用户花了重金购回机器人,却因为口音问题无法交流的例子比比皆是。
即便过了“语言关”,无法理解“把咖啡送到三楼会议室2号桌”这样的连续目的性句子也是家常便饭。用这样的识别精度去辨认人类感情就更难了。比如,日本软银Pepper机器人虽宣称支持情感交互,但实际的表情识别准确率仅65%。一些大学的实验室准确度或许在80%以上,但实测成绩也会打较大折扣。
二是环境复杂了会“犯迷糊”。
工业机器人领域的情况要好些。因为工业机器人的位置普遍固定,物料也是按照规范摆放。但是,如果遇到物料散乱的场景,识别准确率也会大幅下降到60%到70%。
服务机器人这边就不容乐观了。因为要进入的环境不可控因素太多,人流或者复杂地形(即便对人类来说并不复杂)都会频繁导致动作规划偏差,嘈杂的环境会降低语音识别度,遮挡或者光线变换会降低视觉识别度。拜此所赐,我们能看到大量的机器人翻车搞笑视频,这情绪价值倒是拉满了。
所以有人说,目前的人形机器人还是“大玩具”也有一定道理。
求解:机器人究竟卡在哪儿了?
可以说,现在的机器人处于“能看”的阶段,距离“能用”还有较大的距离,遑论满足人们的期待了。
那机器人究竟卡在哪儿了?原因有很多,但最关键的是多模态感知技术的瓶颈。
须知,机器人与人类在感知方面几乎是在两个完全不同的世界。如果把看、听、摸这些都算是“信号”的话。从单项能力来看,机器人通过传感器能感知的比人类神经和细胞感知的要快得多,远得多,广得多。激光雷达能扫描200米远,MEME麦克风能接收的声波范围是人类的5倍,电容式传感器的微小压力精度是人类的10倍。
同时,不幸(或许也是万幸)的是,机器人即便能感知信号,也没有神经网络。因此,在整合信号形成认知,然后再根据认知做出决策方面,机器人的能力与人类大脑相去甚远。因此,即便有的机器人已经能唱跳武打,却仍然需要配一个人类“保姆”外加遥控器。
而把这些所有的信号整合在一起的能力,就是多模态感知能力。
因此,机器人总看起来一副憨憨的样子。而为了能让机器人更像人类,包括OpenAI、DeepSeek、三星、苹果和vivo,都开始研究提升机器人的多模态感知能力。可以说,这是一道机器人产业发展的必答题。
问题是,找到题目后,人们发现也不是“干就完了”那么简单。因为,机器人本身是研发与制造业,现在又涉及了AI、感知技术和消费者需求洞察,不是纯文也不是纯理,而是一个“大综合”。
“拔剑四顾心茫然”,能凑齐上面所有技术能力的企业,好像也只有手机厂商了。
卡位:手机厂商的优势水到渠成
在今年的博鳌论坛上,vivo在宣布进军机器人行业的同时,提出了“成为桥梁”的理念。
vivo执行副总裁、首席运营官、中央研究院院长胡柏山
什么是“成为桥梁”?事实上,vivo已经在手机领域演示过一次。作为当今智能化程度最高的生产力工具,手机本身就是数字世界和物理世界最大的桥梁。vivo是手机品牌中当之无愧的第一梯队,连续四年蝉联中国手机市场占有率第一的品牌。在登顶手机市场的过程中,vivo已经形成了一套理解需求,技术突破,满足场景的成熟方法论。
如今,在机器人领域,只需将方法论平移即可。
从技术实力上看,vivo是目前少有的精于感知技术,还有AI能力,又深耕制造业的厂商。而这些技术恰是机器人领域所需要的:
一是感知技术,也就是混合现实能力。vivo研发的vivo看见、vivo听说等功能,已经成功让视障和听障患者借助手机感知到世界真实的样子。而在vivo的武器库中,还有更多的技术储备。
比如VCS仿生光谱技术能够模仿人眼的光谱响应曲线,1英寸超大底传感器能够实现毫米级环境建模精度。而SLAM空间计算技术则能以每秒30帧的速度,以低于2%的低误差实时生成三维地图。有了这些技术,机器人看世界就能尽量像人眼一样看色彩,辨方位。
二是AI能力。vivo蓝心大模型高达92%的多模态识别准确率也是机器人所需要的。更重要的是,蓝心大模型的AI训练数据直接来源于5亿用户的真实交互场景,涵盖了方言指令、嘈杂环境下的语音样本以及家庭场景的视觉数据。谢天谢地,用户不需要再过“语言关”了。
不仅如此,手机厂商的AI直接嵌入手机应用的各种场景,是直接服务用户的AI,自然也最懂消费者。这使得vivo拥有让机器人精准执行复杂指令的能力。比如“先点杯咖啡再送到三楼”。甚至,因为拥有众多场景,还可以预判用户的需求,先问一句“coffee or tea?”
上面的两大能力结合,已经基本保证vivo出手的机器人会拥有发育健全的大脑。拥有比较高的技术上限。
在此之外,手机厂的供应链话语权优势不可小觑。这意味着更精密的组装,更快速地落地,更大规模的制造。同时,vivo强调,自己要聚焦于机器人的“眼睛和大脑”,主攻消费级市场,研发个人和家庭场景的机器人产品,回归场景,解决痛点,迭代产品,而身子、手臂则是交给合作伙伴来完成。这也体现了vivo作为产业链链主企业的格局。
而所有这一切,都推向一个结果:手机厂商是把机器人产业带入消费级产品时代的最佳选择。
尾声:未来还有多远?
或许,3~5年后,我们会看到能力完全超越现有机器人的原型机。并且,在这个过程中,应该也会不断有新的惊喜出现。
当然,这个过程注定不会过于顺利,但却值得我们为之期待。
而我们期待的,或许是继手机和电脑之后的终极效率机器;或许是来自硅基世界的智能伙伴;又或许只是对科学幻想的印证……只要想到前方或许又是一个人类科技史上的“iPhone”时刻,这期待本身就已足够有趣。
本内容为作者独立观点,不代表环球财经网立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com