AR和VR当前面临的技术挑战和未来展望
admin
2023-10-21 10:01:54
0

AR和VR做为下一代的人机交互方式,不同于传统的鼠标、键盘+屏幕(PC时代)或者手指+触摸屏(手机时代)的交互模式,具有高度的沉浸感、非常直观。




人机交互方式的变化



AR交互方式



VR交互方式

但也毋庸讳言,AR和VR都还处于发展早期,其体验并不完美,还有需要改善的地方。下面我们就AR和VR技术目前在技术上面临的一些挑战进行介绍,同时展望未来发展前景。

第一,视觉方面

VR或AR设备会生成视觉信号给人观看,但是这种视觉信号和人类视觉系统直接感知的真实场景会有不同。在讨论VR和AR显示系统之前,先来了解一下人类视觉系统的视野范围。




人的视野范围

人类的视野在头不转动的情形下,一般被认为是水平180°(对有些人来说可以达到220°)和竖直150°左右。然而,人类不是在整个视野内都能清楚地感知到环境画面:具有最佳视力的中央凹位置的视力,只能占到整体视野的约3°~5°。因此,当你阅读屏幕上内容时,仅使用了20°的视野,符号感知的范围只有40°,颜色感知是在中心视野的60°处,双眼视觉覆盖约120°,这些值仅对固定位置的眼睛有效。但人类的眼睛在大部分时间都不是静止的,眼睛常常快速眼动扫过场景,所以能够清楚地感知的区域比中央凹视力大得多,并没有感觉到自己只能看清环境的一小部分。

目前市场上的专业VR眼镜通常覆盖100°到110°之间的视角,甚至小于100°的视角,相比人类双眼的视觉覆盖范围要偏小。但是,人类的周边视觉可以检测到动作并产生警告,因此,视角小于110°的VR耳机会产生隧道效应,就是缺少周边视野对环境的自然感知。现在市场上开始出现高达180°的视野的VR眼镜,平铺的“小”LCD屏幕(每只眼睛最多12个),并配有优质的光学系统,但目前还不是市场主流。总体而言,现在只需要增加屏幕的分辨率以保证图像定义不会丢失,VR眼镜就可以覆盖整个人类视野。




EpsonBT-350



HoloLens 1



HoloLens 2

AR的视野明显要小很多。EpsonBT-350等眼镜的视野范围为23°,而微软的HoloLens 1提供34°的视角,HoloLens 2则提供接近52°的视角。目前光学透视系统的局限性依旧限制人类视野,这个障碍很难克服。广泛使用的光波导技术具有与其全反射角度相关的物理限制,理论上这将会导致光波导类型AR眼镜的视野范围限制为60°左右。Nvidia曾经开发出的光学系统原型能达到110°的视野,但是屏幕的分辨率非常低。相比之下基于视频透视的AR眼镜能够提供更大的视野,例如Varjo的新一代产品可以提供115°的视野,通过这种视频透视方式可以提供比较高的画面显示质量,虚拟内容和真实场景的画面质量可以保持一致,不足的地方是通过摄像头显示的真实场景画面与人眼直接感知到的真实场景存在差异,就像照片再真也比不上人眼看到的真实环境自然。




Varjo XR 3提供115°的视野

第二,显示分辨率

设计VR或AR眼镜时还要考虑人类视觉系统的另一个特性—视觉敏锐度,其表现形式是辨别力,也就是眼睛在视觉上分离两个不同物体的能力。视敏度通常以十分之一为单位表示,而不是以最小分离角度表示。不过10/10的正常视力(对于具有极高视觉敏锐度的人可能达到20/10)对应于一弧分(即1/60°)。因此,想要获得接近人类200°视野的显示设备,每眼必须具有大于8K的分辨率(如果考虑理想情况,则为9000×7800像素)。目前手机屏幕显示分辨率的逐渐提高也推动AR、VR眼镜屏幕发展,2K、4K的屏幕开始出现,离8K也越来越接近。但其实现在人并没有在低质量图像方面特别困扰,从720p(1280×720像素),到高清或全高清(1920×1080像素),再到超高清(3840×2160像素)和即将到来的8K分辨率(7680×4320像素),提高图像质量已然成为可能。而在未来几年,这些分辨率将像电视屏幕分辨率一样不断增加,从而使图像质量不断提高,直到达到与人类视觉系统一致的最佳分辨率。




HTC VIVE Pro 2的双眼分辨率达到了5K级别

第三,显示刷新频率

因为人类视觉系统具备视觉持久性或“视网膜持久性”,以每秒24个图像的速度显示视频是不会产生不连续的感觉的。因此,电影的帧速率已经被标准化为24帧/秒。对于观看距离更近的电视,在欧洲是25个帧/秒,在美国和日本是30帧/秒。视网膜持久性指的是投影图像会保留在视网膜上一小段时间,从而允许人类视觉系统将一系列连续的、孤立的图像融合成顺畅的动画图像。

如果30帧/秒已经足够,为什么我们还要提高VR和AR眼镜的帧速率呢?原因是相机会产生运动模糊,全速行驶的汽车车轮或者飞行中的直升机叶片看起来是静止的,足以说明上述观点,因为此时人眼在视觉化时产生相关联的模糊。另外我们经常会注意到在查看高速相机拍摄的视频帧速率为30帧/秒帧的电视画面时,其闪烁是能感知到的。同时考虑到AR和VR眼镜需要显示3D立体的图像,左右眼需要同时看到具有不同视差的两幅不同画面,帧速率需要翻倍到至少60帧/秒,因此,我们可以得出这样的结论:每秒30帧的速率是远远不够的。




不同刷新率下的画面质量

因为眼镜设备显示屏幕距离眼睛要比电影、电视、手机屏幕距离眼睛的距离小很多,为了避免闪烁现象的出现,现在眼镜设备每秒显示约90个图像,一些高端的电视和手机,这个数字应该能达到120帧/秒。理论上每秒图像数量越多,用户体验质量越好。所以系统必须有能力计算单眼每秒120个图像,或双眼每秒240个图像。在技术上达到这个标准,从市场发展的角度,不太远。

第四,图形计算能力

想象一下如果我们在技术上可以生产两个8K屏幕,具备120帧/秒刷新率的图像投影到人类视野范围内,使用当前的AR和VR眼镜设备能满足实时反馈的要求吗?每秒需要处理8000*5000*2*120=96亿像素,结论要取决于3D场景模型的复杂程度。

由于每只眼睛感知像素的大小会因为AR和VR眼镜的镜头产生的径向失真而变化,所以需要优化(包括局部劣化)渲染图像的分辨率。为与眼球凝视跟踪系统相结合,可以在靠近中央凹的区域中进行高分辨率恢复,并通过降低用户周边视觉的分辨率来优化恢复。现在一些高端AR和VR眼镜设备已经开始配备足够快速和精确的眼球追踪装置。这些优化,加上图形处理中心的增加和蚀刻精细度的降低,让我们能够预见到极其强大的图形容量,从而使未来的AR和VR眼镜能够呈现超逼真的图像质量,具备更高程度的沉浸感觉。




注视点渲染效果

需要注意的是图形处理能力增加并不是说就不需要再进行实时显示3D场景的优化工作。硬件性能提升与软件算法方面的优化并不矛盾,AR和VR应用、视频游戏、动画电影特效,用途不同,关注的点也不同,比如AR和VR应用更关注实时性,电影特效更关注画面质量,视频游戏则兼顾两者,每个图像都需要不同的计算时间,从几毫秒到几分钟甚至几个小时。

好了,一口气写这么多,费了不少力气,希望能给关注AR、VR、MR的朋友提供一些参考,这个行业的发展也到了要突破的阶段,看好前景。如果文章中有什么不对的地方,也欢迎大家在评论区指正、讨论,对这个主题有兴趣的朋友也请大家关注我的知乎号,后续会有更多内容推出。

相关内容