AR增强现实产品设计之交互篇(一)
admin
2023-08-03 11:04:28
0



Meta宣传片中的手势交互

如何寻找近眼AR应用的交互方式,分享我过去一年在践行的思路。

拿到一个项目/想法后,在没有指定交互设备的情况下,我是按照如下顺序去思考的:

如何选择近眼AR的交互方式?

一、上文是啥?

“人事物场”构成的问题语境。

人:用户是谁,认知和行动上有什么特征?

  • 比如,低龄儿童普遍认知能力低,所以在低龄儿童身上就不能用需要先前经验积累的交互动作,应该更注重趣味性和可探索性,把复杂交互用自动化的方式去避免。
  • 再比如,如果你的用户是没有FPS游戏经验的,那就应该用「角色模拟」(虚拟Avatar独立演绎)的方式让用户看一遍操作「卸弹匣、装弹匣、上膛、持枪、射击」的完整交互教程。

事:交互要解决的问题是什么?

  • 射击的动作是为了只是把子弹射出去(目标导向),还是为了让用户感受真实射击的乐趣(执行导向),还是为了快速、高效地集中敌人(结果导向),还是为了在训练中给到用户射击动作、操作结果的反馈(评估导向)。
  • 还有公司成本约束。拟真程度要做到什么程度?或者超越现实的程度要达到多少?交互精度需要达到多少?这些都受公司开发成本的影响,除非公司财大气粗,否则就要去寻找交互和实现成本之间的平衡。



AR射击交互

物:存在于场景中有哪些物理对象?(关乎锚定、交互和约束);

  • 如果没有桌面,那就不能实现将用户界面锚定在桌面,并用手势去滑动获得触觉反馈,这时候如果触觉反馈非常重要的话,就需要帮助用户寻找新的平面去实现触觉反馈。
  • 在能识别深度的基础上,如果用户眼前一臂距离内有物理障碍物的话,就需要提醒用户在近场交互工作区内有障碍物。用户就可以根据自己的需要做出下一步的决策和行动,或在系统层面上帮助用户切换隔空手势交互。
  • AR既然能看到现实世界,就必然会产生现实物体的交互——拿起杯子、在纸上写字、拿起电视遥控器等等,所以我们给到用户的交互方式、界面显示,不应打断或干扰用户日常与生活/工作中的现实对象的交互。
  • 记住,AR界面要跟用户相处,而不是剥夺用户在生活中已有的注意力。



现实中存在于工作桌面的物理对象

场:桌面级/房间级/建筑级/街道级别空间大小,室内/室外,是否存在具体的场景?

  • 如,AR的应用场景是在地铁上,这是个具体的场景。地铁的空间类型:狭长的房间型。室内/室外:室内,光线相对稳定。问题:空间拥挤、吵杂。
  • 观影体验上,基于这点分析,如果在拥挤的地铁上要用AR看电影,就要做到 1)避免显示画面在Z轴上与物理对象(人)有冲突,可以通过电致变的方式减少对现实环境信息摄入,通过虚拟画面的方式为荧幕营造一个观看背景,起到隔挡拥挤人群的作用;2)同时,在视锥上等比拉近,近场显示。
  • 交互体验上,由于地铁拥挤且是公共场所,这时候如果用单一手势完成交互就不合适;语音在公共场所也不合适。所以更好的方式是通过「注视点+手环/指环」完成交互。AR眼镜观影要被认可,光靠3D大屏这一卖点是不足以让用户养成习惯的,因为AR眼镜本身就具备随身移动性,怎么在公共场合让用户也愿意与AR眼镜交互而不显得奇怪,进而打开更多场景,这是看好AR观影的公司需要思考的。

如果没有具体的场景,尽可能找到用户高频使用的场景,作为用户在实际的场景中使用,比较容易发现问题。




Nreal想象中的车生活观影场景


二、交互对象是谁?

AR中的交互对象可以分为:2D虚拟对象、3D虚拟对象、3D物理对象。(2D虚拟对象 如传统2D视频;3D虚拟对象 如斧头模型、恐龙模型;3D物理对象 如真实的手机、抽屉、相框)

2D虚拟对象、3D虚拟对象归纳为GUI,3D物理对象为TUI。




TUI交互方式-与卡片表面的滑动触摸 表现为右侧列表的跟随滑动

实际的交互对象也可以由「2D虚拟对象+3D虚拟对象」、「2D虚拟对象+3D物理对象」、「3D虚拟对象+3D物理对象」组成,所以要考虑交互方式的通用性,或者采用多模态的方式交互。

2D虚拟对象+3D虚拟对象:如果场景中存在同时存在2D虚拟对象和3D虚拟对象,需要旋转、移动3D虚拟对象,那就不能只用注视点交互,而是加上手势、6dof手柄等能对交互对象产生6dof影响的交互方式。

2D虚拟对象:如果是只是2D虚拟对象,因为2D虚拟对象只有X轴和Y轴,所以采用3dof交互方式(鼠标、触摸板、注视点等)会带来更高的交互效率。

3D物理对象(+虚拟对象):对于3D物理对象,往往是通过与3D物理对象(父对象)交互来影响2D虚拟对象或3D虚拟对象(后两者为子对象),最重要的是认知可供性,即让用户知道通过与物理对象的交互能触发/影响虚拟对象,以及具体的触发/影响结果是什么。

然后是识别和连接。让3D物理对象可被系统识别,让操作结果在近眼系统中发生,并可被用户感知。




与2D GUI进行交互


三、用什么交互动作?

交互对象往往已经决定了用什么交互动作,但具体的业务场景有其最合适的交互动作。

比如,手术模拟场景中,交互对象是3D虚拟人体器官,3D虚拟人体器官属于3D虚拟对象,前面提到,针对3D虚拟对象更适合的方式6dof交互,而能实现6dof交互的方式有手势、6dof手柄、6dof头部、按钮组合(一个按钮代表一个维度;直接或间接影响虚拟对象)、力量向机械装置(如万向跑步机)、三角光标、巫术玩偶间接交互(基于3D物理对象的识别和同步)等等。

在交互动作的选择中,最重要的是达到产品目标/业务目标。

在手术模拟的AR应用中,如果目标是让受培训者快速掌握某具体手术任务,以达到临床的最终目的,那交互动作就不能只是追求高效和学习成本低(如按钮),而是通过手部交互学习如何拿手术刀、如何对伤口缝线,以达到临场和拟真的目的。




Hololens医疗培训

如果只是在AR里刷刷朋友圈,那交互动作就应该尽可能符合「最小的输出换取最大的输入」。「目光所及之处,比任何交互动作都要快」可能就是最好的途径。当然,AR里的朋友圈,何止于当前有边界的2D界面,又何止于2D呢。


四、选什么交互设备?

交互动作和交互设备互为约束。

已经选定了手势交互的动作,那你的交互设备就不能用手柄,虽然能把虚拟手锚定在手柄上,但是交互自由度不高;已有交互设备的选择约束,则只能在设备功能约束内实现交互动作。

实现手势交互的方式有无需物理设备附着于手上的CV、Tof、结构光、毫米波雷达;需将物理设备附着于手上的动捕手套(如诺亦腾HI5)、EMG手环(捕捉基础手势)等等。

需要用交互精度、准确度、复杂交互能力、鲁棒性、交互反馈需求、拓展性、实现成本角度去选择具体业务场景下的交互设备。

在模拟手术的场景中,对交互精度、复杂交互能力和交互物理反馈的要求是最高的,所以,如果有能够满足这三个要求,甚至能实现力反馈的手套更佳,其次是有物理反馈腕表的裸手交互(起码Meta Hands 2.0精度级别)。

如果是一个AR FPS游戏,那最佳的方式就是模拟真实手枪的交互,给到用户一把仿真手枪,这样学习成本和物理沉浸感相对较高。




诺亦腾Hi5 2.0手部交互手套


五、评估选择。

在实际交互行动中,进行多维度的评估。

根据埋点数据,评估用户通过交互方式完成目标的时长、错误率、准确性,从而得到系统性能和任务性能的反馈;

根据实际访谈和问卷,得到关于交互方式的学习难度、沉浸性、代入感的主观感知和体验的反馈。

也可根据需求用观察法、专家评估法、生物检测法、边做边说法;如果需要在两种交互方式中做出选择,善用A/B TEXT。

当然也要注意讨好测试用户、用科学的方式记录测试过程、科学选择测试人群、多维度/团队的评估等等,其实都是互联网产品经理常用的测试评估方法。

以上是业务方选择AR交互方式的基本框架,无论是AR、MR还是VR都有共通之处,供大家参考。


设备方(AR眼镜/MR头显)怎么选择交互方式?

VST MR

如果是基于VST(Video seethrough) 的MR,依然是裸手手势+手柄,只不过下一阶段会有裸手的基础上加上手环/指环,给到用户机械反馈,同时提供「注视点+指环/手环」的新交互模态。

VST MR的交互方式需要在与VR的共存中寻找最大公约数,所以迭代路径比较清晰。几个VR/MR的核心场景中,游戏场景主用手柄,同时VR游戏配件大繁荣;办公场景兼容已有的办公工具,实现办公工具的虚拟化和在线化,键鼠和手势(加上腕表/指环的机械反馈)共存为主流;扁平化产品的场景如观影、浏览网页则用腕表/指环+注视点。

各交互方式在不同场景中相互兼容,兼中取优。




Meta下一代头显Cambria中的手部交互效果实机录屏

OST AR

OST(Optical seethrough)AR是基于AR眼镜的AR,其实是被微软带节奏了,AR跟MR是一回事。

混合进现实的虚拟对象,难道不是对现实的增强吗?出现在现实中的虚拟对象,难道不需要跟现实融合吗?

AR跟MR的本质,都是在理解现实世界的基础上,让虚拟对象出现得更合理,让用户详细虚实融合的眼前世界。

AR眼镜的发展方向,一定是随身穿戴,那通用的交互方式也一定是随身可得。

从可得性角度来看,无胜于有,小胜于大,软胜于硬。

但是无任何设备穿戴,则意味着没有触觉反馈,没触觉反馈是反直觉的,所以AR的通用型交互方式一定是基于可穿戴设备,而可穿戴设备是尽可能无穿戴感。

既然AR虚拟对象已经融入现实世界了,而手是我们与这个现实世界交互最自然的方式,所以AR的穿戴设备是基于手部的穿戴。再者,既然AR已经是对双手的解放了,那就没必要在「目标对象-交互介质达到」的实现过程中还以手部移动来完成,而是通过注视点配合指环/手环来确认意图完成交互闭环。

这是AR眼镜的通用型交互方式。

但是不同的业务场景,依然有最适合这个场景的交互方式,如前面提到的手术模拟,所以对AR设备方来说,留出交互接口让下游去适配交互配件、定义业务场景下的交互方式,同样是非常重要。




我做的关于AR眼镜中「注视点+指环」交互的视频Demo的截图


关于AR交互的核心思想

交互就像搭积木,每个积木都可以完成一个子操作。XR是多模态、多通道交互,挑选合适的积木可以构成新的交互方法,用户可以通过交互技术的可供性清楚地知道,哪些能做,哪些不能做(约束)。

  • 智能时代的交互:让人跟物、跟周围环境的交互方式简化,再简化,一直还原到人最原始和自然的行为。所以AR的交互方式大概率是NUI为主,GUI+TUI为辅。(NUI:利用现有技能自然地、符合知觉地与机器交互。关键是利用「现有技能」、当前场景下「最合适的」。NUI不可避免的是,用户必须经历一定的学习成本才能和机器交互,也就是通过“尝试”达到意图,而不是分析; TUI:融合物理对象和信息展示(图形 音频等))
  • 为什么AR的交互方式大概率是NUI,因为用户不会想要一个杂乱的世界,而是想把注意力放在手头上的体验,所以需要把信息隐藏在菜单中。
  • 未来人机交互会往「输入-输出」到「主动感知-输出」转变。机器主动感知你的心理、行为状态做出反应,所以未来在AR上我们需要的是「少交互,也懂我」。

手势交互作为AR/VR的关键交互方式,下一篇具体展开分享下手势交互。

相关内容