AR:爆发式机会在哪里?(下)



前两期《科技参考》,我们谈了三款目前技术上做得最好的 AR 眼镜和中国 AR 眼镜的发展现状。听完后你可能会有些失望,AR 眼镜的现状可能和你之前在广告里见过的描述相去甚远。

今天这一期《科技参考》,我们就来看看面对这些困境,有哪些公司夹缝中生存,而且竟然找到了机会。

 

微软拿下美国陆军AR订单

其中一个找到机会的公司就是微软。他们在 2021 年 3 月份和美国陆军签订了一份 210 亿美元的合同。约定在未来 10 年间,为陆军提供军规级别的 HoloLens AR 显示设备,功能是夜视、辅助瞄准、模拟训练,其中还会大量动用微软的云服务。

为什么微软能拿下这份订单呢?因为到目前为止,技术上做得最好的 AR 眼镜就是微软的 HoloLens 系列了。

最新款的 HoloLens 2 在尝试过各种消费级应用但都觉得不满意后,改换了方向,定位在工业应用中。

比如,其中的一个场景是面对着机柜里大大小小几百条线缆,想要维修的话,需要解开哪一束?检查哪一根儿呢?

其实,这事儿如果放在从前,只能把懂行的各位工程大拿都集合到现场,维修工作要在他们的指指点点下才能完成。

而现在有了 AR 眼镜,这几位工程师可以远程看到机柜里线束的实景,而且可以互相给对方标记到底是哪根儿线缆。这样的话,哪怕一个人在中国、一个人在英国、一个人在澳大利亚,也可以共同提供支持,不用往一起飞了。

 

像这类需要多方一起、对着复杂场景里的细节指指点点才能把事说明白的应用,其实都可以归为专业应用。刚刚说的维修是一种,做手术、给学生讲课也是,甚至在战场上瞄准、锁定目标也是一种。

尤其是在疫情的大背景下,人们对出行的需求减弱,催生出了各种网络应用。如果 HoloLens 能把这类需求接住,那仅仅是教育市场的部分也是不小的蛋糕。

比如,学习细胞的结构或者其他器官的解剖结构时,如果能 3D 立体的在老师的指指点点下弄清每部分的正常结构、病理结构,并且把标注都留在 3D 的结构图上,那简直太好不过了。

 

而以目前 HoloLens 的处理能力和显示效果来看,还真是可以担得起这个重任。

而且,微软很可能会想方设法通过各种协议和标准,让由 AR 增强现实的部分成为其他平台也可以访问的数据。什么意思呢?

比如,当对方通过 HoloLens 眼镜给你展示了 PPT 上的细节,指导你该怎么做之后,你今后摘下 AR 眼镜看那份 PPT 的时候,当初增强现实的部分也可以显示在 PPT 里。

想要达到这样的效果,就需要一个企业拥有若干大平台。而微软就是这样的平台帝国。全球 90% 以上的电脑和笔记本都在它的 Windows 平台下,全球过亿的游戏玩家今后也会在它的 XGP 平台里,同时它还拥有全球排名前列的云计算平台 Azure。

 

Meta的AR实践有什么不一样?

另一个要提的 AR 参与者是从前的 Facebook,它今天已经改名为 Meta(元宇宙)。这期内容之后,我们就叫它 Meta 公司。

虽然它并没有推出 AR 眼镜的硬件实体,但它正在做的工作,在重要性上一点也不比微软差,只是暂时还处于基础建设阶段,没有盈利。

简单来说,Meta 做的事情主要有两个:第一,建立了一个史上最大的专用于训练 AI 的超级计算机;第二,建立了一个 AR 软件开发平台。

我们先说那个超级计算机。

超级计算机一般有很多用途,很少是专门服务于 AI 训练的。但今后,这样专门服务于 AI 训练的超级计算机的应用会非常多。

在 AR 的应用中,AI 的训练尤其重要。

我们当前可以看到的 AR 应用非常少,而且不但少,严格来说,还都是 Demo 式的尝试,完全没有实用价值。

比如,给你虚拟出一只会动的恐龙。是,确实有点意思,它还能自己从桌子上跳到地面上来,到处游走,有一种逼真的感觉。但这种新鲜感顶多 15 分钟就过去了,因为虚拟玩具恐龙什么都做不了,它只不过是 AR 眼镜的工程师利用图像引擎做的一个可行性的试验而已。

而真正有用的 AR 是什么呢?比如——

戴上它去植物园,在你目光的焦点落在那株植物的时候,在植物的右上角显示出植物的名称和简介。在拉开冰箱门之前,你说“帮我找火锅调料”,门一开,它就把你要找的调料位置标记出来了。你在做完饭、关火准备吃的时候,它会提醒你忘放盐了。你自言自语说一声:“嗨,帮我把所有路人都变成美女帅哥”之后,眼镜会对每个人实时地做精细的修饰,让他们看上去都特别好看。

而这些功能需要的核心能力什么呢?

人工智能。它需要 AR 眼镜识别出眼前这株植物是什么,需要对过往凡是戴眼镜时看到的东西有记录,而且还要能轻松听懂你嘴里说的话。而不是需要再用手柄遥控 AR 眼镜界面,甚至弹出一个对话框,用手柄一个字母一个字母地敲入命令。

对图形和语音的分类、识别是 AR 最核心的功能。而要实现这个功能,劲儿不能用在 AR 眼镜上,而是要用在超级计算机上。

Meta 公司从 2017 年就为 AI 建了一台超级计算机,用 2.2 万张当时的顶级显卡组合而成。而这台超算已经满足不了今天的需求。于是从 2020 年开始,Meta 公司又建了第二台超级计算机,全部建成后的算力大约是第一台的 20 倍。

Meta 公司要用搭建的超级计算器把几个规模超大的训练模型跑出来。比如,现在正在运行的一个自然语言处理模型,参数就超过了之前我们介绍过的 GPT-3。GPT-3 是微软投资的,目前拥有 1750 亿个参数。而 Meta 的新模型具体参数是多少目前还不确定,但超过 1 万亿个参数是肯定的。

而在图像识别和语音识别这两项 AI 任务上,Meta 公司也布置了过万亿的参数模型,计划用几年的时间完成训练。完成训练后,起码能得到多个和普通人能力相当的模型。也就是说,人可以分辨出的特征、人可以听出来的语音、人可以读懂的语义,这些模型也可以胜任。

当这些模型训练完成后,对各种 AR 应用的真实需求才能体现出来。

人工智能的训练是需要超大算力的,这么大的算力算的是什么呢?

其实,就是针对一系列任务,确定每个参数的具体值或者具体权重应该是多少。这样的值可能有上万亿个。等把这些值的最优组合找到了以后,模型也就成型了。之后再处理语音、图像、语义的时候,就把数据塞到对应的模型中,按已经确定好的数值参数跑出来,就会得到很不错的结果。

所以,实际处理任务时需要的算力,比训练模型要小得多的多。也就是说,模型训练需要用到配置有 2 万张显卡的超级计算机,但利用模型执行任务时,只需要一个台式机就够了。

但那也需要一个台式机,还是需要三四百瓦的功耗才能达到延时还可以接受的、准实时的图像识别效果。

而今天,不需要外接供电就能连续工作五六个小时以上、几十克重量、只比普通眼镜沉一点点的那种 AR 眼镜,典型峰值功耗只有零点几瓦。就算是那种半盔似的 AR 眼镜,峰值功耗也顶多开放到几瓦的水平。

所以,在电池技术或者单位功耗的算力没有本质提升之前,搞 AR 眼镜硬件的开发是很烧钱的事情。

而除了建超级计算机训练参数模型之外,Meta 公司正在做的第二个为 AR 准备的事情,就是 Spark AR 开发平台。

它最早是一个类似于插件一样的东西,最常见的应用类似于在今天的直播课里,给主播脑袋上戴一朵小红花。后来,逐渐演化到对画面中人脸进行修饰,甚至男变女、老变少,都可以实时完成。

再后来,Spark AR 把这个插件做成了一个开放平台,程序员可以按照它规划好的方法,做出自己想要的滤镜。这个滤镜就不只是针对人的脸部了,还有针对图片上的信息,或者针对某个 3D 空间的。

Meta 公司甚至还推出了 Spark AR 的课程和创作者认证。这些准备工作,为今后 AR 功能充分发挥作用提供了不少人才和素材的积累。

 

AR带来了哪些爆发式的机会?

不管是建超级计算机,还是建立 Spark AR 开发平台,Meta 公司的这些投入就算暂时不会被 AR 利用,他们自己的 VR 设备也用得上。哪怕 VR 设备上也没有用到,仅仅是训练出一个能力出色的图像识别、语音识别、语言翻译、语义理解的模型,也是价值连城的事情。

因为目前最强的语义理解模型 GPT-3,也是在被微软收购后,靠微软的超级计算机的算力才训练完成的。

所以,尽管目前最好的 AR 设备运行起来也和我们之前想象的效果相差甚远,但国内外的巨头们还是纷纷尝试,甚至还推出了第二代、第三代产品。

这些做法给了我们一些提示,那就是——

小企业在 AR 中能获得的爆发式机会是在工程技术上取得突破,比如电池、芯片、显示和光学。

而大企业在 AR 中能获得的爆发式机会在平台搭建上。这里所说的平台,既是指用户平台,也是指训练复杂的机器学习模型。

但总的来说,虽然 VR 和 AR 只差了一个字母,但 VR 已经迎来爆发,进入快速增长期,两者在接下来的发展中,差距会越拉越大。

聯系郵箱:0xniumao@gmail.com