交互包含屏幕,但使用语音作为主要输入方式的设备为更集成、更有用的整体用户体验指明了道路。

语音和基于屏幕的交互正在从两个方向趋同:

  • 随着语音控制系统的加入,智能手机、平板电脑和电视等以屏幕为优先的设备正在得到增强。
  • 智能音箱等以语音为优先的设备正被屏幕强化,比如Echo Show(毫无疑问,其他品牌很快也会推出类似的产品)。

尽管有常见的科幻描述,但我们不应指望语言完全取代书面交流。但很明显,标准的人机交流正迅速扩展到包括书面和口头交流。目前语音交互主要是在个人和家庭使用领域。但是当人们习惯了它,他们也会在商业和商业环境中期待它。(对于那些曾经为会议室投影仪或电话系统菜单发愁的人来说,想象一下,如果你能说“显示屏幕”或“开始会议”,那该多好。)

真正集成的语音加屏幕系统可以通过利用每种交互风格的优势,为大量任务转换用户体验:

  • 语音是一种有效的输入方式:它允许用户根据自己的条件快速地向系统发出命令。免提控制允许用户多任务处理,有效的自然语言处理绕过了复杂导航菜单的需要,至少对于熟悉的任务和已知的命令是如此。
  • 屏幕是一种有效的输出方式:它允许系统同时显示大量信息,从而减轻用户的内存负担。视觉扫描比语音输出强制的顺序信息访问要快。它还可以有效地传达系统状态,并通过提供可视符号来建议可能的命令,从而消除执行鸿沟。

从逻辑上讲,把这些合并成一个系统听起来像是一个明显的胜利。但是,集成两种非常不同的交互模式的设计挑战使迄今为止没有任何一个单个系统能充分实现语音和屏幕并行的好处。

屏幕优先交互的局限性

直到最近,大多数将屏幕和语音控制结合在一起的设备都是屏幕优先的:带有语音控制系统的智能手机以语音代理的形式添加到现有的图形用户界面,如Siri或Google Assistant。

这些屏幕优先的系统展示了令人印象深刻的语音识别和语言处理,但是由于语音代理和触摸屏应用程序功能之间的基本划分,总体用户体验仍然非常分散。

缺失的功能性
语音代理通常只能启动任务的第一步,任何后续步骤都需要用户切换到触摸交互样式。例如,Siri会执行网络搜索查询或打开苹果新闻应用程序来响应语音命令,但用户必须点击屏幕来选择搜索结果或访问新闻报道。谷歌助手还需要屏幕输入,以迈出许多搜索的第二步。


Siri和Google Assistant都执行语音命令来搜索菜谱,但随后要求用户触摸屏幕来选择结果并完成任务。

“语音模式”屏幕空间使用不当
即使是那些支持多步语音输入的任务,Siri使用的屏幕设计也与GUI版本完全不同,而且常常不能充分利用可用的屏幕空间。例如,Siri可以阅读短信并发送回复。但是,当你大声朗读一条短信时,整个屏幕都是黑色的,只有发送者的名字出现了——而不是短信的实际内容。类似地,在回复时,屏幕不会显示你回复的消息的文本,这与在GUI消息传递应用程序中不一样。这种局限性不必要地限制了用户可用的信息。实际上,语音模式应该能够显示更多的消息历史记录,因为不需要显示键盘。


当Siri大声朗读短信时(左图),屏幕上看不到短信内容;在口述文本消息回复时(右),你无法看到你正在回复的消息。

缺失的功能可见性
Siri极简主义的语音代理屏幕也忽略了大部分精心整合到图形用户界面中的视觉效果,比如让人们知道他们有能力在发送文本消息之前进行编辑。(Google Assistant的可视性要高得多,建议的命令显示在每个任务结果的正下方,还有一个提要允许你重新查看以前的任务。)

纯语音交互

随着亚马逊Echo和Google Home等智能音箱的推出,语音交互出现了一种截然不同的方式。这些设备根本不提供视觉显示,日常使用都依赖于音频的输入和输出(除了一些闪烁的灯光)。由于中距离语音识别的准确性有了很大的提高,智能音箱实现了真正的免提操作,这反过来又增加了灵活性和效率,足以让那些已经拥有语音智能手机的用户也愿意使用它们。

但是没有屏幕对这些扬声器来说是一个巨大的限制。只有听觉信号可以用来提示用户可能的命令,大声朗读输出对于除最简单的任务之外的所有任务来说都是乏味的。在做饭的时候以语音指令设置一个定时是很好的,但是不得不询问还剩下多少时间就不太好了。获取天气预报变成了对用户的一项记忆测试,用户必须在整个星期内努力倾听和吸收一系列事实,而不是从屏幕上看一眼。

语音优先交互

智能音箱的成功与语音输出令人沮丧的局限性相结合,催生了一个新产品:Echo Show,它在Echo智能音箱的基础上增加了一个显示屏。该屏幕显著扩展了原始Echo的功能,使得查看天气和监视计时器等任务变得更加容易。不过,与拥有完整图形用户界面的屏幕优先设备(如亚马逊自己的Fire 7平板电脑,价格要低得多)相比,Echo Show在执行智能手机和平板电脑早就具备的基本功能方面要差得多。例如,它甚至还不能浏览网站、显示评论或显示你的Amazon购物车的内容。

Echo Show所提供的是一种完全不同的交互方式,可以称之为“语音优先”,它几乎完全依赖于语音输入,而不是将语音降格为次要的、有限的模式。

语音优先交互是指主要通过语音命令接收用户输入的系统,可以通过紧密集成的屏幕显示来增强音频输出。

虽然Echo Show在技术上来讲是有触摸屏,但它很少提供按钮或菜单。(一个触摸键盘勉强能让你输入无线网络密码,但很快就消失不见了。)Echo Show经常显示建议的口头命令,如尝试“Alexa,向右滚动”,而不是鼓励用户点击或滑动屏幕。


Echo Show鼓励用户尽可能使用语音输入,而不是触摸屏幕,建议用户使用“Alexa,向右滚动”这样的口头命令,而不是典型的触摸屏意符(如按钮)。

彻底地集成语音和屏幕输出

本质上,语音优先代表了一种解决将语音命令集成到现有图形用户界面的新方法。首先,GUI被完全消除了(例如最初的只使用语音的Echo);然后屏幕被重新引入,视觉信息被逐渐合并为整体系统的一部分。

人与个人设备之间的语音交互代表了一种全新的、从根本上不同的交流方式——对于用户和设计师来说,它就像一门外语。就像外语最容易通过沉浸式学习一样,语音交互的发明和采用也很可能通过专门关注这种形式的环境而得到极大的提高。

在Echo Show的界面中,一些有趣的创新例子已经很明显了:

对搜索结果进行顺序编号,这在早期的web搜索中是一种常见的惯例,但很久以前就因为在可视列表中没有必要而被抛弃了。在语音优先设备上,数字的重要功能是提供独特而有效的口头“处理”,让用户有效地选择物品。

随机显示建议的命令,如尝试“Alexa, 播放 Al Green”或尝试“Alexa,你最喜欢的单词是什么?”这种技术类似于Siri(你可以问我的事)和谷歌助理(探索)使用的方法,但却不同, 这些提示不仅显示在专门的教育区域,而且还显示在主屏幕、各种搜索结果屏幕和音乐播放器屏幕的底部。(这种环境教育机制肯定能吸引新用户自发地使用设备。但随机的内容意味着这些提示通常是无趣的,而且让有经验的用户感到厌烦,因为它们无法关闭。)

丰富的交互式内容的沉浸式显示,这在传统的网络和手机GUI上是很正常的,但是在之前的屏幕优先语音界面上就不一样了。例如,Echo Show上的菜单结果包括显示配料、方向和演示视频的详细屏幕——所有这些都可以通过语音命令访问。


作为一个语音优先系统,Echo Show不仅在GUI应用程序中提供了一个到菜谱的链接,而且还包括具有详细配料、用法和演示视频的语音导航沉浸式屏幕。

语音优先是一个长期的解决方案吗?

消除菜单和按钮等传统GUI元素可能是学习语音交互界面的必要跳板。但就像“移动优先”运动(产生了糟糕的想法,比如使用大屏幕时隐藏全局导航)一样,语音优先的概念也不是万灵药。

最终,以“纯”语音交互为名,故意限制屏幕的功能会不必要地限制设备的有用性,增加了用户的认知负荷和挫败感。视觉显示在本质上是一种更有效的方式,比纯语音输出更能让人们访问大量的信息。

例如,语音优先的方法意味着,尽管它的名字是Echo Show,但它实际上不会“显示”你的任何请求:你不可能看到所有已安装应用程序的列表,或者“技能”(亚马逊这样命名它们)等基本设备信息。

Alexa目前拥有超过15000个技能库,其中许多只能通过说出技能的名字来访问。即使用户只安装了几十个技能,他们怎么能记住他们安装的每个技能的确切名称呢?个性化的建议和自然语言处理可以减少查看应用程序菜单的需要——但是除非语音代理有读心术,否则它们不可能在任何时候都能提供用户可能感兴趣的所有建议。

语音优先的设计可能会极大地改善语音交互,但从长远来看,为了语音优先的交互而武断地禁止可视化菜单,就好像是把一只手绑在背后去打仗一样。随着整体的、智能的语音和屏幕界面的日益复杂,用户体验设计师需要运用所有他们能得到的工具。

原文链接:https://www.nngroup.com/articles/voice-first/
翻译:马克笔设计留学
如果对于设计专业留学和作品集有任何疑问,可以随时和我们联系,微信:13718574833,知无不言言无不尽!

Leave a Reply