空间计算产业链前瞻_财富号评论(cfhpl)股吧

股吧首页 > 财富号评论吧 > 帖子正文

返回财富号评论吧 >

空间计算产业链前瞻

慕容衣

2024-04-03 21:14:39

来自陕西

1
评论
♥ 收藏
A
大中小

分享到：

目前人与硬件之间的交互越来越自然，越来越贴近人使用工具的自然习惯。同时新的交互硬件总能生长出最适配的计算平台，且软硬一体化的趋势越来越强。

因此交互硬件与计算平台是相辅相成的，在可以预见的下一代交互硬件VR/AR/MR之上，也一定会适配全新的计算平台。

最有潜力接棒成为下一代计算平台的就是“空间计算平台”，将全面颠覆平面计算的范畴，帮助人实现虚拟与现实之间的连通与融合的计算过程。

今年6月，苹果召开WWDC 2023开发者大会，发布首款混合现实头显设备Vision Pro，标志着空间计算时代的开启。

空间计算概念

如何理解空间：人和计算机所处的物理空间；计算机拥有的信息层面对应的虚拟空间。如何理解计算：决定虚拟空间信息的呈现；控制真实物理空间的物体。

狭义的空间计算平台是一种虚拟现实（VR）、增强现实（AR）、混合现实（MR）以及更自然的人机交互界面，机器保留并处理真实空间和真实空间的物体。

空间计算平台可以实现：允许创建虚拟信息并且把他们投射到真实空间中（Virtual Space-->Real Space，AR）；允许用户把真实空间或者真实空间的物体数字化放进机器（Real Space-->Virtual Space，VR/MR）。

空间计算将人所处的真实空间和计算机拥有的虚拟空间更好地融合，定义了一种人机交互新范式。

广义的空间计算平台是信息-环境耦合系统，通过所在环境与信息之间的耦合实现对于真实环境时空属性的控制。

空间计算平台可以测量真实时空属性并将其转化为信息，对于获取到的时空信息进行信息层面的操作，根据计算机的指令对真实空间的物体进行操作控制改变时空属性。

空间计算平台可以实现的操作包括：测量时空属性

（Measuring Space-time）：获取时空属性并将其转换为信息，如测量距离、角度、持续时间、面积，密度和曲率等；

操纵时空属性

（Manipulating Space-time）：获取信息并且改变时空属性，和时空属性测量互为逆过程，例如移动设备、改变曲率、局部扩展或收缩空间或改变局部物理特性；

计算模式

（Computing Pattern）：在时间和空间上进行抽象的、信息层面上的操作，包括纯计算机计算方面的内容、不和物体直接接触的传感器（如声光传感器或LED元件）间的信息传递等环节；

物理演化

（Physical Evolution）：真实空间物理系统的时空属性变化遵循客观规律，空间计算平台对于时空属性的程序控制需要考虑客观物理规律前提。

空间计算的作用

空间计算，定义人机交互新范式

空间计算定义人机交互新范式，将机器中的空间（虚拟空间）和空间中的机器（物理空间）更好地联系在一起，让机器成为人生活工作中更全面的伙伴。

空间计算能够：解决计算设备物理空间和虚拟空间体积的冲突：将计算设备呈现的虚拟空间无限延伸；提供更直观的显示和更自然的交互：

显示：计算设备信息呈现，整体朝着更接近直观更贴近真实的方向演绎（文字→2D图像的2D显示→3D图像的2D显示），空间计算设备具有的3D图像的3D显示，摆脱了原先2D平板屏幕的限制，提供更贴近真实更直观的信息呈现；

交互：计算设备的人机交互方式整体朝着更自然的方式演绎（PC：键盘→鼠标→触控，手机：按键→触控），空间计算手动交互替代原先操作手柄控制可类比手机从按键到触控交互方式的转变。

实现空间维度的人和虚拟信息零距离，眼动交互引领交互再升级，眼睛不仅可以被动接受信息的显示同时可以主动地控制信息的呈现，实现更为自然直接的人机交互；

实现虚拟空间和真实物理空间的融合：以二维平板屏幕作为主要呈现方式的传统计算设备（PC、智能手机等），受限于屏幕的二维显示，人和计算设备拥有的虚拟空间是分立的；

以QuestPro为代表的VR设备尽管拥有Pass-through功能，可以通过两个红外摄像头+1个高分辨率的彩色摄像头合成三维视图，但是整体三维重建效果一般，视图扭曲且分辨率低，人和真实物理空间是分立的；

以Vision Pro为代表的空间计算机通过三维显示实现虚拟空间的无限延伸，以及通过多传感器+摄像头+低延迟计算+高分辨率显示实现真实环境的实时重建，实现了虚拟空间和真实空间的融合；

创建更深层次的连接：通过将计算设备的使用者带到相同的虚拟空间创造和非同一物理空间的人的连接，实现跨越空间的紧密连接；

空间计算平台可以拍摄3D立体的照片和视频，真实地重现回忆，还原感受，实现跨越时间的紧密连接。

空间计算，开启万物智能新世界

空间计算广义范畴上是一种信息—环境耦合系统，以环境信息和用户意图为输入，以呈现给用户的虚拟信息和作用在真实空间物体的操作指令为输出，实现直接、复杂的反馈回路，人、环境、空间计算设备形成相互耦合的有机系统。

空间计算设备

脑机接口是空间计算设备的远期形态

脑机接口（Brain-Computer Interface，BCI），是在人或动物脑（或者脑细胞的培养物）与计算机或其他电子设备之间建立的不依赖于常规大脑信息输出通路（外周神经和肌肉组织）的一种全新通讯和控制技术。

“脑机接口”的定义=“脑”+机“+”接口”。即，在人或动物脑（或者脑细胞的培养物）与外部设备间创建的用于信息交换的连接通路。

从长远的角度看，能够认为脑机接口是空间计算设备的远期形态，在操控上完全体现人脑意识操控虚拟现实操作的无缝无感的切换。

人类通过感知能力感受环境并且传递给大脑，感知包括视觉、触觉、听觉、嗅觉和味觉等等。

脑机接口通过电信号模拟，可以完全替代人类的感觉器官的，都是以电信号的模式在传导。

从计算机的处理功能角度，能够认为脑机接口是通过模拟、整合、增强的逻辑与人脑完全融合的。

它先模拟人脑计算，再整合人脑提高整体的计算能力，在生物学意义上能够增强神经网络计算能力。

Apple Vision Pro是初级空间计算设备的典型代表

苹果在WWDC发布会上表达了Vision Pro的定位是首款可佩戴的空间计算设备，以及产品划时代的意义——Vision Pro会将用户带入空间计算的时代，其底层逻辑是空间计算平台。

站在苹果的视角，个人计算时代的设备，例如PC和Mac，解放了个人的计算负担，使人能专注于创造；

移动计算时代的设备，例如iPhone，iPad这样的手机和平板，以人为结点，有效链接了世界，使得信息传递更为方便快速；

那么苹果所提出的空间计算，则是解构和再造了空间，使人能有机会进入到多维时空中。

为了更好的服务于空间计算，Apple Vision Pro集成了以下三种能力。立足当下来看，能够认为Apple Vision Pro是目前初级空间计算设备的一个典型代表。

首先是超高像素显示能力。苹果用双4K显示面板实现了8K的超高清分辨率，像素总数达到了2300万。

在这样的基础上，保证了视觉沉浸感的两大核心指标，即视场角FOV和角分辨率PPD，同时达到了良好的用户体验所需要的指标门槛。

其次是物理现实体验的能力。苹果利用m2芯片的图像处理能力，以及R1芯片的传感器协同能力，通过十余个摄像头，多个传感器和麦克风，实现了对周围环境的信息采集和3D重建，来实现虚拟物体和真实世界的融合。

尤其是突出了其对VST（影像透视）功能的看重，通过VR相关的技术基底实现了MR的体验。

三是人机认知交互的能力。苹果Vision Pro充分使用眼球追踪、人脸识别和手势识别技术，并通过外屏幕显示面部表情，一方面保证了在现实环境下周围人的友好交互，另一方面又显著提升了虚拟环境下认知沉浸体验。

空间计算的颠覆性和必然性

计算升维是一种时代颠覆，PC到手机的变迁无法与之类比

升维，对于人类而言意义重大。人类是生存于四维时空的三维生物，可以理解三个空间维度和一个时间维度。人类与世界的交互方式，人类感知世界与处理信息的方式是三维的。

人类的文明能够超越基因的沉淀而延续与传承，关键的是通过间接知识或间接经验代代相传。直接经验是指由亲身参加或实地实践所获得的知识，是三维+时间的完整体验。

间接经验是指从别人或书本那里学习得来的知识，受技术水平所限，多以文字、书本等一、二维为载体体现，在提升了传播效率的同时也牺牲了信息密度。

文字是一维的，图片是二维的，视频是二维+时间，无论哪一种载体，相比直接知识和经验都是一种降维。降维过程损失了必要信息。

因此，升维的重要意义重大。以三维信息作为载体最接近人类的真实体验，相比二维信息显著提升了传播效率与传播精度，将间接知识传播过程中在形成与传播的过程中的损耗降至最低。

从宏大叙事的视角来说，接近人类的真实体验/符合人类的交互习惯，有助于提升全人类文明的进步效率；从技术普及的视角，对推进技术平民化至关重要。

例如计算机的发明与普及。计算机可以看做是人脑的延伸，将信息、知识、文化抽象化，并以计算机能够理解的语言和方式进行处理，成为人类重要的生产工具。

最早的计算机是服务于科研人员及军事领域的实验室产品，图形界面取代代码命令后，二维的图文相比一维的代码更易为用户理解。

从一维到二维（属于平面计算的范畴），计算机完成了普及的使命——一般的用户可以无障碍完成基础操作，经过训练的用户可以使用各种计算机软件完成更高阶操作，如制图、建模、开发等。

从二维到三维（从平面计算到空间计算），这种放大效应将更加显著。

以使用AutoCAD进行机械制图为例，最终的呈现效果其实是取决于“创意本身”以及“使用软件将创意复现在图纸上”两大层面。

其中“复现”的层面，将三维的模型投影在二维的平面，其实是需要较高的学习成本与理解成本，也会受到软件本身能力的制约。

若戴上MR眼镜在空间计算平台进行制图的场景，在三维空间构建三维模型，一切将变得直观且立体，用户可以更加专注于“创意本身”。

软件能力与操作准则不再是限制，用户使用计算机的可处理对象将进一步扩充，与计算机的交互效率也将进一步提升。

从更长远的角度看，升维也是契合于元宇宙的一种思维方式。

Meta所构筑的元宇宙理想中，人是直接可以在虚拟世界当中生存的，虚拟世界是可以有无限多个的，而现实世界只有一个，甚至可以认为是虚拟世界的一个实例，因此整体看虚拟世界比现实世界更为重要。

在苹果的空间计算逻辑中更加以“现实”为本，现实世界与虚拟世界几乎是同等重要的关系。

Apple Vision Pro选择了VST的技术路线，基于现实世界叠加虚拟信息，将虚拟世界视作现实世界的扩展和补充，第一步是在三维的虚拟世界中增加二维的屏幕，第二步是脱离二维的屏幕在虚拟世界中直接展示3维的虚拟信息。

从这个视角比较，Meta的元宇宙理想或许是更有野心的，但苹果在当下更好地实现了现实与理想的平衡。

从平面到空间的计算升维，是用新的成体系技术，对老的技术体系进行“降维打击”。

因为平面计算是建立在平面坐标系+时间上的二维信息，与三维计算（三维坐标系+时间，其实是4维信息）相比在信息获取量、输出量和计算负担等方面存在数量级的差距。

平面计算形成了自己的技术和产品体系，但空间计算的技术和产品需要迭代升级，并可能带来全新的输入、输出和计算方式。

这种老的技术体系向新的技术体系的进化有可能是完全的颠覆，这种颠覆性，可以看作是新技术体系对老技术体系的降维打击。

这种过渡的颠覆性，不论从技术、产业链、还是思维模式层面，都不能用过去的经验类比。在过渡期失败的，有两轮典型的案例。

第一轮是苹果PC成功转型做手机，iPhone重新定义了硬件、iOS重新定义了软件生态；谷歌硬件失败了但Android软件生态成功了；

联想、惠普等一众老牌PC厂商都失败了，同时也有华为、小米、OPPO/vivo等手机厂商强势崛起。

第二轮是新能源汽车新势力的崛起，老牌汽车厂商在智能电车的大趋势下正在面临严峻考验，而特斯拉、蔚来、小鹏、理想等造车新势力却后来居上、渐入佳境。

所谓的垄断巨头也是时代所造就的，在上一轮的竞争当中取得绝对优势，但是往往也可能过于“路径依赖”，在技术、产业链、商业思维等层面因循守旧，而会被下一代的新兴力量“降维打击”。

空间计算的时代必将到来

平面计算的技术和体验已然见顶。据发改委网站数据统计，2022年全球智能手机出货量为12.1亿台，同比下降11.3%，出货量前五家企业市场占有率总和为69.9%。

其中，小米出货量为1.5亿台，同比下降19.8%，市场占有率为12.7%；OPPO出货量为1.0亿台，同比下降22.7%，市场占有率为8.6%；Vivo出货量为1.0亿台，同比下降22.8%，市场占有率为8.2%。

可以说，智能手机的出货量已见颓势，而这其实是智能手机背后的平面计算所能提供的用户体验已经遇到了显而易见的发展瓶颈，需要空间计算带来破局机会。

空间计算的技术和体验拐点已经到来，Apple Vision Pro就是标杆产品。

在PC时代与智能手机时代，苹果已经多次证明过其定义行业拐点的成功经验——1984年推出的Macintosh、2007年推出的iPhone，2023年发布的Vision Pro有望再次书写历史。

这一轮空间计算浪潮之下，苹果具有看准未来及塑造未来的能力。看准未来的能力，指的是苹果Vision Pro预测并描绘了一个全新的空间计算概念，是具备跨时代属性的。

塑造未来的能力，指的是苹果有能力预测一代又一代的标杆式产品并有能力把这些预测变成行业的共识和现实。苹果在个人计算和移动互联时代都曾推出过颠覆性的产品：

在个人计算，也就是PC时代，苹果于1984年推出了Macintosh；而在移动互联时代，苹果在2007年推出的iPhone，更是颠覆了业内一众键盘手机。

这次，苹果自然也期待Vision Pro能成为其定义的空间计算时代的颠覆性产品。站在苹果的视角，个人计算时代的设备，例如PC和Mac，解放了个人的计算负担，使人能专注于创造；

移动计算时代的设备，例如iPhone，iPad这样的手机和平板，以人为结点，有效链接了世界，使得信息传递更为方便快速；

那么苹果所提出的空间计算，则是解构和再造了空间，使人能有机会进入到多维时空中。

苹果推出Vision Pro之后，硬件已经不是制约空间计算能力的主要因素。

在涉及显示、光学、图像、追踪定位等方面，部分现有VR产品的硬件参数是可以等同甚至是可以优于Apple Vision Pro的。目前，制约空间计算的核心矛盾不是硬件而是算力。

Vision Pro问世之前，VR长期以来是互联网公司的逻辑，Vision Pro出来之后，就回归到硬件公司的逻辑。

过去VR行业长期由Meta引领，而Meta做硬件是典型的互联网公司逻辑，重视用户数量的增长而牺牲一定程度的用户体验。

苹果Vision Pro将引领行业重新回到硬件公司的逻辑，以用户体验为优先，更加关注硬件设计方面的核心能力。

当设备的颠覆性（屏幕替代性）得到初步显现后，将引发产业链的跑步追赶，行业将进入高速增长时代。

空间计算平台关键要素

空间计算技术包含三维重构、空间感知、用户感知、空间数据管理、5G/云网与空间计算。而空间计算的关键要素就在于如何理解环境信息和用户意图。

如何理解环境

以Vision Pro为例，其通过大量摄像头传感器、专属R1芯片的应用实现低延时、高质量的环境信息感知和三维重建。

真实环境的三维重建主要通过传感器获得环境信息，然后通过信息处理实现三维重建。

从环境信息的获取方式来看，三维重建技术主要分为接触式和非接触式两种。

接触式环境信息获取主要利用仪器触头直接碰触待测目标，如机械式的三坐标测量仪就是此类三维重建技术。

非接触式环境信息获取通常被分为主动视觉和被动视觉两个类型，主动视觉主要通过特殊的光学仪器向视觉场景中投射特殊的结构光，然后通过检测这些投射光在目标表面的图像，或者计算回收反射信号的时间来进行深度信息获取的三维重建技术。

被动视觉直接利用视觉传感器从客观外界获取相关信息，然后在相关约束条件下，通过信息处理算法计算出目标的三维坐标信息。

从三维重建算法来看，三维重建算法主要分为基于传统多视图几何和基于深度学习的三维重建算法。

多视图几何法是描述同一场景从不同视角下获取的多幅图像与物体之间投影关系的几何模型，多视图几何理论把在数学中的推导引入到计算机视觉中，主要包括射影变换、小孔成像以及捆绑调整等的推导，为图像的三维重建提供了理论依据。

通常，多视图几何法研究内容主要包括不同层次的射影变换（两层摄影变换、三层射影变换等）、摄像机模型中的内外参数的求取、三维坐标计算等，该方法还涉及一些三维重建中基本的数学公式表达，例如，基础矩阵、本质矩阵和N视点关系等；

基于深度学习的三维重建算法，14年开始Eigen团队第一次使用卷积神经网络（CNN）用于三维重建，三维重建领域的深度学习应用迅速发展，在数据处理、几何推断、结构推理、语义理解等多个层次为三维重建带来深刻变革。

如何理解人

通过感知用户面部、人体姿态等方式来理解人。面部感知包含人脸关键点检测、人脸识别、人脸重建及眼球追踪；

人体姿态感知包含人体姿态估计、手势的识别和姿态追踪；其他感知与驱动包含语音交互、空间音频等。

如Vision Pro利用眼动交互可以通过目光瞄准和手势确认的方式控制远处物体，也可以通过目光瞄准的方式实现输入交互。

空间计算设备产业链分析

空间计算设备的重要部件

光学模组：方案各有千秋，平衡轻薄与清晰度两大关键需求

在空间计算设备结构中，光学模组作为连接显示屏和人眼的重要桥梁，是最为关键的组件之一，直接影响到最终的显示效果与使用体验。

光学技术的发展缓慢，一直是VR/AR/MR快速扩张的瓶颈之一。

当前的主流光学模组主要包括非球面透镜、菲涅尔透镜、Pancake三种方案，实际应用中厂商会在极致轻薄与极致清晰之间作一定取舍。

非球面透镜通畅有着更清晰的成像质量、更高的放大率与更广的视野，但透镜的厚度与重量较大。

Pancake折叠光路方案则在轻薄度上领先，通过多片光学镜片让光路多次折返，从而缩小整个光学模组总长，但不可避免地会产生“伪影”、损失光效，影响最终成像效果。

前沿的超表面/超透镜方案有望平衡轻薄与清晰度两大需求。

超表面透镜能利用纳米结构聚光进而达到避免色差出现的平面，且能形成特定的重复模式模拟折射光线的复杂曲率，使其没有传统透镜笨重，并能在减少畸变的情况下改善聚焦光线的能力。

显示面板：技术持续演进，Micro-OLED预计成为中期行业主流

早期VR头戴式设备大部分采用普通LCD，而后逐渐被OLED取代。2016年前后，OLED技术尝试用于VR设备中，并一度成为VR设备生产商的首选。

2018年以后，Fast-LCD技术的出现让LCD逐渐成为主流选择。自2022年起，显示方案进一步迭代，Apple Vision Pro使用硅基OLED显示方案，Quest Pro使用Mini LED背光的Fast LCD显示面板等。

Micro OLED具备性能参数、工艺制造等多维优势有望成为行业主流。

Micro OLED光源模块是通过使用气相沉积将OLED沉积到衬底上而产生的，具有OLED自发光、薄、轻、视角大、响应时间短、发光效率高等优异特性。

更容易实现高PPI（像素密度）、体积小、易于携带、功耗低等应用效果，特别适合应用于近眼显示设备。

从性能参数看，相比Fast-LCD和Micro LED，硅基OLED色彩表现要更强，沉浸体验更好。

对比LCD屏幕来说，由于其拥有黑矩阵的工艺，因而限制了LCD的PPI提高，即便像素密度提高到1000ppi以上也难以完全消除纱窗效应；

对比Micro LED来说，尚存在工艺和产业化问题，成熟度不够高，而且也可能会存在像素点亮度不一致的问题。

从工艺制造看，其技术工艺主要分为单晶硅光刻的基底驱动层技术和OLED蒸镀技术。

对于单晶硅光刻的基底驱动层技术而言，硅基OLED采用的是28nm、55nm、或者180nm成熟的CMOS工艺，其工艺难度要远低于目前的顶级光刻单晶硅技术。

Micro LED有望成为远期最佳显示方案。Micro LED指在一个芯片上集成的高密度微小尺寸的LED阵列，如LED显示屏每一个像素可定址、单独驱动点亮，可看成是户外LED显示屏的微缩版，将像素点距离从毫米级降低至微米级。

通过巨量转移技术，将微米等级的RGB三色Micro LED搬到基板上，形成各种尺寸的Micro LED显示器。

Micro LED的芯片到了肉眼难以分辨的等级，可以直接将R、G、B三原色的芯片拼成一个像素点，变成“一个像素”的概念，不再需要滤光片和液晶层。

Micro LED用到的自主发光器件，即LED半导体灯珠，是一个正负极性明确、体积形状固定的固体小颗粒灯珠，再通过“巨量转移”技术平面化集成大量的微小LED灯珠器件。

“巨量转移”技术是Micro LED产业独有技术，难以从其它相关产业获得巨大的技术帮助。目前，Micro LED巨量转移技术依然处在实验室攻关阶段。

背光技术：MiniLED背光LCD为超高清显示可行方案

LED背光源由直流驱动，工作电流易控制光电转换效率接近100%，在相同的照明效果下比传统的光源节能80%以上。使用寿命很长，基本都在传统背光源的10倍以上，甚至可以高达10万小时。

LED是固态发光源，启动电压比较低，防震性好，色域宽广等等。另外LED还具有在线编程亮度可控、灵活多变的特点。

LED背光主要有侧入式背光、直下式背光、Mini LED三种方案。

侧入式背光：在液晶面板侧面封装传统LED背光模组，通过导光板折射的光线透过液晶面板层得以显示。侧入式背光的LED灯珠通常是几十颗，光线不均匀，无法实现区域调光，其优点是面板较薄。

直下式背光：将LED背光板配置在液晶层下，LED灯珠可均匀分布在液晶层背面，背光板可进行区域分割，各区域单独控制光线明暗，从而提高对比度，实现HDR（高动态亮度范围）显示，获得更好的显示效果，其缺点是面板较厚，分区数量有限。

Mini LED：背光将传统LED芯片缩小，背光源灯珠由原来的几十颗、几百颗变成数千颗、数万颗，分区数量也能从几十、几百个增加到几千、几万个，每个区域对应多个像素点，结合区域调光技术，对背光源进行更加精细化的亮暗控制。

Fast-LCD与Mini LED相结合，不仅可以很好的解决漏光难题，也能够进一步提升Fast-LCD在高对比度、高刷新率、高亮度等方面的性能，辅以HDR功能，将更好地发挥VR产品近眼超清显示的画质要求。

摄像头：数量显著增加，VST、面追及眼追、空间定位各司其职

摄像头可以看做是空间计算设备的“眼睛”，摄像头品质和功能是良好用户体验的关键。

从每个设备上摄像头数量来看，2022年下半年上市的VR设备标配6颗以上的摄像头，旗舰产品至少8颗摄像头，且摄像头的数量仍有增加的趋势。

Apple Vision Pro配备了12颗摄像头，包括2组RGB主相机、4组下视角相机（2组近乎垂直向下，两组斜向下）、2组外侧视角相机、以及4组眼球追踪红外相机（头显内侧）。

RGB摄像头：用于拍摄外部影像，和内部显示模组提供实时的立体视觉，提供一种透视的效果。让VR一体机拥有AR设备的能力，可以虚实结合，已经成为标配摄像头。

VST图像的清晰程度取决于RGB摄像头的采样能力：RGB摄像头是现在VST显示画面清晰度的瓶颈；摄像头本身是带视场角的，所以需要用2颗RGB摄像头以降低边缘畸变；需要机器识别算法对RGB摄像头拍出来的画面进行调整优化已达到最佳显示效果。

眼动追踪摄像头：眼动追踪技术早期主要由外设配件来辅助完成，逐步发展成为VR的集成配置器件，通过内置眼动追踪模块，VR实现了动态注视点渲染功能（DFR）以及自动瞳距调整（Auto-IPD），在设备的多人共享场景下发挥了一定作用。

各大厂商均有在眼动追踪方向有所研究，但其推出的硬件产品所搭载的眼动追踪功能还是以与眼动技术提供商合作为主。

目前最常见的方案是以瑞典眼动追踪厂商Tobii为代表的技术提供商所采用的瞳孔角膜反射法。该方案下的眼动追踪主要由眼动摄像机、光源和算法共同完成。

光源发射红外光在眼角膜反射形成闪烁点，眼动摄像机捕捉眼睛的高分辨率图像，再经由算法解析，实时定位闪烁点与瞳孔的位置，最后借助模型估算出用户的视线方向和落点。

面部追踪摄像头：用于捕捉使用者的面部表情甚至重建使用者的面部。这是为了以后元宇宙的交流更加自然，更加像现实中的体验。

这个功能会用2颗微光红外眼球跟踪摄像头，1颗嘴部动作捕捉摄像头来实现。6DoF摄像头：用于感知环境，捕捉手部动作，实现最重要的人机交互方式。

经过一个联合标定的过程建立一个SLAM地图，用来人手在这个SLAM地图中的运动情况。

标定的算法与空间算法上的差异会导致用户使用中体验的差别，在VR世界中进行球类游戏和其他需要跟踪精准的手部动作的应用中会体现得比较突出。

传感器：重要性凸显，dToF LiDAR有望成为标配方案

普通的彩色相机拍摄到的图片能看到相机视角内的所有物体并记录下来，但是其所记录的数据不包含这些物体距离相机的距离。

仅仅能通过图像的语义分析来判断哪些物体离我们的远近，但是并没有确切的数据。

深度相机则恰恰解决了该问题，通过深度相机获取到的数据，能准确知道图像中每个点离摄像头距离，这样加上该点在2D图像中的(x，y)坐标，就能获取图像中每个点的三维空间坐标，通过三维坐标就能还原真实场景，实现场景建模等应用。

Apple Vision Pro配备了5个传感器。

三维重建技术中，ToF（time-of-flight，飞行时间）的概念扎根于深度传感器，指采用像素阵列来获取整个场景的高分辨率深度分布。

LiDAR主要应用于自动驾驶领域，是根据发射光和反射光之间的飞行时间来直接估计目标距离。也就是说，如果从测量原理来看，所有的LiDAR都是ToF。

因此，ToF LiDAR通常指的是那些基于测量发射和反射光之间的飞行时间来获得高分辨率场景深度/目标距离分布的传感器。ToF深度传感器代表公司有微软Kinect-2，PMD，SoftKinect，联想Phabdeng。

ToF方案又可进一步细分为dToF与iToF。dToF和iToF的原理区别主要在于发射和反射光的区别。

dToF的原理比较直接，即直接发射一个光脉冲，之后测量反射光脉冲和发射光脉冲之间的时间间隔，就可以得到光的飞行时间。

iToF的原理则要复杂一些，在iToF中，发射的并非一个光脉冲，而是调制过的光。接收到的反射调制光和发射的调制光之间存在一个相位差，通过检测该相位差就能测量出飞行时间，从而估计出距离。

从原理上来看，iToF的最大问题就在于最大测距距离和测距精度之间的矛盾。而dToF相较于iToF来说难度要大许多。dToF的难点在于要检测的光信号是一个脉冲信号，因此检测器对于光的敏感度比非常高。

常见的dToF传感器实现是使用SPAD（single-photon avalanche diode，单光子雪崩二极管）。

SPAD的工作区域位于二极管的击穿区附近，当单个光子进入SPAD后就会产生大量的电子-空穴对，从而SPAD能检测到非常微弱的光脉冲。

从器件角度来看，SPAD的集成度要低于普通的CMOS光传感器，因此dToF传感器的2D分辨率较差。

dToF的传统热门应用是车载LiDAR。如前所述，dToF在车载的LiDAR中主要实现的是高2D分辨率的测距。在车载应用中，dToF的关键指标包括测距距离、距离分辨率、2D分辨率以及抗干扰性。

由于车载LiDAR对于测距距离（100m以上）和抗干扰性的要求，相关的ToF传感器基本是dToF占主导。

目前，车载LiDAR dToF已经可以实现200m以上的测距距离，而在2D分辨率上已经可以实现1M以上的像素数。以上两个指标的提升主要取决于器件工艺和激光光源，预计2D分辨率会在未来几年内快速提升。

随着近几年深度传感器和LiDAR的发展，dToF也得到了长足的发展。从光传感器像素来看，dToF目前也可以使用CMOS工艺实现，并且已经可以实现不错的2D分辨率。

随着ARVR等新应用的兴起，消费电子领域对于深度传感器的需求也在快速上升。消费电子领域传统上是iToF的天下，因为在消费电子领域的应用中对于ToF传感器的最大测距距离需求较低（数米之内），而对于2D分辨率和成本的需求则较高。

然而，随着dToF技术，尤其是高集成度CMOS SPAD的发展，dToF正在从高端进入消费电子市场。

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！