当前位置:首页 > 新闻资讯 > IT业界 > 新闻
元宇宙没能实现的“空间计算”,苹果怎么造
  • 2024/2/4 9:49:48
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:吴新
  • 作者:
【电脑报在线】三年前,元宇宙概念在全球居家的背景下大肆走红,热度甚至不亚于2022年末诞生的ChatGPT。但这股风潮很快随着先行企业的收缩而降温。

01

没有“物质基础”的元宇宙说散就散  

三年前,元宇宙概念在全球居家的背景下大肆走红,热度甚至不亚于2022年末诞生的ChatGPT。但这股风潮很快随着先行企业的收缩而降温。去年第一季度,美国社交媒体巨头Meta,中国互联网龙头腾讯、字节跳动等企业几乎都在通过收缩VR(虚拟现实)等业务,以求从元宇宙的虚火中抽身。

尤其是曾经创造“元宇宙”高光时刻的Meta。在2021年宣布all in元宇宙之后,Meta旗下负责该业务的Reality Labs(现实实验室部门)就一直深陷亏损泥潭,甚至拖累Meta整体业绩,使得其在资本市场的表现一度在所有美国大型科技企业中落得垫底境地。

诚如Meta CEO扎克伯格所言,元宇宙的确是“一个长期的赌注”,并非短时间可以抵达的目标。但从现实的角度来看,元宇宙未能如预期般顺利开展最核心的问题一是内容不够丰富,且产出成本太高;二是硬件产品的性能还离真正的大众化太远。   

“戴上耳机和目镜,找到连接终端,就能够以虚拟分身的方式进入由计算机模拟、与真实世界平行的虚拟空间。”这是美国著名科幻大师尼尔·斯蒂芬森在其小说《雪崩》中对“元宇宙”的描述,也道出了几个元宇宙的重要基本特征:虚拟分身,即现实世界的用户将在数字世界中拥有一个或多个ID身份;开放式自我创造,即用户通过某一终端进入数字世界,然后利用海量数字资源展开活动。

实现元宇宙,硬件和内容是两个阻碍

总而言之,元宇宙应该让所有用户能够得到、体验到现实世界无法满足的一切。这也意味着元宇宙所创造的虚拟世界需要大量数字资产,这一点仅靠原有的内容制造厂商所创造的VR内容远远不够。

而AIGC的跨越式发展,或许会为解决这个问题提供极大帮助。从最近的消息来看,AIGC已经可以应用于内容生产侧,甚至可以快速实现2D乃至文字内容到3D内容的升维,无论是音视频还是游戏,AIGC的参与必然会进一步改变虚拟内容格局。

那么高性能硬件怎么解决?尽管VR或MR(混合现实)设备市场已经经历过一波军备竞赛,但在业内人士看来,无论是全球VR、MR市场份额最高的产品Oculus,还是字节旗下的Pico、微软的Hololens,这些被称为虚拟现实设备的大部分机电产品“只是一些拙劣的虚拟实现”。因为人类有视觉、听觉、触觉等等不同的感觉,大部分厂商并不知道该如何把所有的感官信息都用数字化的信息来取代,所以虚拟现实设备往往只是替换了人类视觉系统输入的信息。   

当大脑需要融合几个传感器才能确定自己在空间中的状态时,头晕就成了最显而易见的推广障碍。一个合格的MR硬件设备,需要实现真实世界和数字世界无缝融合,这意味着不仅要让用户看到虚拟世界呈现的信息,还要让大脑清楚的明白自己在空间中的运动状态,也就是看到背景中的环境图像。这正是能支撑空间计算概念的硬件设备出现的意义。

02

感知能力的硬件军备

先解释一下“空间计算”这一概念。平时我们开车,需要判断车与马路牙子的距离、车与行人的距离,才能安全行驶,动物也要通过视觉或声音等途径判断自己与猎物的距离——这种人类和动物都具备的基础生存技能有个学名,叫“深度感知”技能。而“空间计算”技术就是要让机器拿下这个难啃的骨头,让数字世界正确地出现在我们身处的这个现实世界物理空间内。

2003年,刚刚从麻省理工学院硕士毕业的Simon Greenwold首次在自己的学术论文中提出了空间计算(spatial computing)概念,将其定义为一种利用空间数据和算法、对空间信息进行处理和分析的技术。这个不算新的概念要真正实现可以说是难上加难,举例一个我们比较熟悉的应用场景:自动驾驶。

高级别自动驾驶要求车机能先做到感知,再进行决策和执行,感知环节的重点之一就是空间计算技术。自动驾驶企业一般是两个路径来实现“感知”,一条是用激光雷达、毫米波雷达和摄像头等多传感器组合的扫描类路线,另一条就是特斯拉力挺的纯视觉路线,只依赖摄像头模仿人类双眼,再从摄像头捕捉的场景来判断物体的深度,也就是距离。   

特斯拉的经验告诉我们,车辆如果选择纯视觉感知路线,就需要处理大量图像和视频信息,对车端和云端算力,以及训练算法模型都提出较高要求,特斯拉为此自研了FSD(Full Self-Driving)车端人工智能芯片和云端训练芯片,当然FSD芯片还要完全匹配自身算法。

以Vision pro为代表的MR设备,虽然需要处理的图像、视频没有经常在户外高速行驶的车辆那么多,但要实现消费级别的应用,也同样是一个将硬件、软件、算法深度协同的复杂过程。Vision Pro这一真正能支撑空间计算概念的MR硬件是如何做到的?

这里要着重介绍一个光学配置“VST镜头”(Video See Through,视频透视),也就是Vision Pro所配备的两颗主镜头(main cameras)。随着XR世界的蓬勃发展,我们一定会常常看到VST这个词。

现在市场常见的XR头显设备里的真实世界,都是通过相机捕捉到周边环境的实时视图,然后再与计算机图像技术结合在一起,呈现在不完全透明的显示器上,这就是VST技术。通过VST技术,算法甚至可以完全控制视觉集成,允许虚拟产物和真实物体互相完全遮挡。

空间计算是人类的基本生存技能,机器却很难学会

再说回到Vision Pro配备的这两颗全彩、4K VST摄像头,正是这两颗来自韩国高伟电子的摄像头,成为了负责把真实世界场景还原在设备屏幕里的主力。这就像我们用手机照相,外部的世界会通过摄像头显示在手机屏幕上,这不过VST摄像头会更高清且实时化,最终相机捕捉到的真实世界与计算机生成的虚拟图像叠加渲染后,会共同呈现在苹果搭载的两块4K分频率硅基OLED屏幕上,达到类似透明的效果。   

但是VST技术不止苹果在用,上述的几个厂商基本上都有搭载,为什么苹果敢强调自己是“空间计算”设备?首先,苹果不是仅仅只依赖两颗主摄像头来实现“空间计算”,Vision Pro还搭载了苹果各类高规格硬件,包括12个摄像头和5个多类型传感器。

两颗主镜头是实现空间计算的重要支撑

通过这种“堆料”,苹果实际是以VST摄像头为主,其他各路相机、激光雷达、惯性导航元件等为辅,抓取了用户周边的大量信息,堪称数据洪流。

如何在数据洪流中总结出自身和现实物体的空间信息,还要尽量减少虚拟和现实环境切换过程中的延迟,就涉及到了算力问题。Vision Pro内置的R1图形芯片,虽然定位是协同处理器,但实际上就是专门负责处理空间计算延迟问题的芯片。

为了方便用户随时切换场景,VST主摄像头哪怕是在纯虚拟环境下也要工作,当这两颗摄像头以每秒60帧的频率不断拍摄,就会带来庞大的计算量和相应的功耗。R1芯片总结用户自身和周边环境的过程,就像一个站在江岸边的渔夫,要在几十毫秒内数清自己面前数据洪流中游过了多少条“鱼”,越快数清楚,就意味着物理延迟越低。根据苹果官方公布的数据,VisionPro的物理延迟已经低于12毫秒(ms),而当前市面上所有的XR设备,延迟基本都在100毫秒左右。   

03

不够完美的领路者

总结一下,苹果敢强调自己头显设备的空间计算能力,是基于各种传感器、高分辨率OLED屏幕以及R1芯片的加持,VisionPro才得以更清晰的画面、更小的图形畸变和更低的延迟。

“空间计算”一直是业界通往元宇宙终极愿景的一个重要节点,高性能XR硬件产品什么时候能够进入大众市场,对于元宇宙概念的“重生”恐怕也起着决定性的作用。但是VisionPro能承担起这个大任吗?

我认为,VisionPro或许会是一个元宇宙硬件快速进步的信号。尽管它并不完美:还没能做到毫无延迟、设备笨重、续航达不到24小时、室外使用也不现实……但是它至少又一次点燃了产业界对元宇宙底层能力的关注。

最近,Meta传出消息要跟LG共同开发高端VR设备;三星调整步调,要跟Google联合开发新一代VR头显;腾讯也刚重组了XR事业部准备再次进军XR设备市场。为了符合大众市场需求,硬件设备一定会继续减少延迟、成本、重量等等,总有一天,我们会触及增强现实技术的极致。  

本文出自2024-02-05出版的《电脑报》2024年第6期 A.新闻周刊
(网站编辑:ChengJY)