如何打造优秀的语音交互体验？这儿总结了四个方法

　　回顾人机交互发展是「技术进步」与「载体创新」交替螺旋促进在推动着人获取信息的效率不断提升，成本不断降低。

　　AlphaGo先后打败李世石和柯洁，百度发布自动驾驶系统「阿波罗」这一次由AI引领的技术进步正在发生。基于大量纯净数据的深度学习给人工智能带来的了巨大的进步，这种进步主要体现在三个维度。

　　认知能力 – 基于用户行为的画像，将人机交互从「单向」关系带入「双向关系」。

　　感知能力 – 由触摸输入到以语音输入、图像识别为核心的全自然交互。

　　自然语音输出能力 – 带来新的”语音“设计材料。

如何打造优秀的语音交互体验？这儿总结了四个方法

　　语音对于体验设计师来说是新的设计材料，它有哪些设计挑战?语音设计有框架可寻吗?有哪些设计方法?我们将在下面的文章与你分享。

　　二.设计挑战

　　从「右边界」设计到「无边界」设计

　　当我们设计App界面，交互设计师会穷举用户在固定像素界面内所有可能的操作，一一设计恰到好处的用户反馈。但是对于语音交互用户的输入是没有边界的，用户可能的输入将远远超出你可能的穷举的范围。从「有形」的设计到「无形」的设计，视觉的设计规范在语音设计过程中将完全失效。

　　从「进场」交互到「多距离空间」交互

　　语音交互主要分为近场交互(例如：度秘/Siri)和中场交互(车载)、远场交互(智能音箱)。

如何打造优秀的语音交互体验？这儿总结了四个方法

　　多距离场景的有以下几个维度的不同：

　　(1)场景特征：在非近场交互的场景下用户可能在其他事情上，而非专注在其他任务，这给如何让用户最小成本的获取当前系统的状态带来挑战，「我唤醒了设备吗」「我们可以说了吗」每一个节点需求都需要多维度的定义。

如何打造优秀的语音交互体验？这儿总结了四个方法

　　(2) 输入方式：常用的输入方式有实体操作(按钮/旋钮等等)，触摸，语音，动作，在近场交互时实体与触控是第一选择，而当中远场交互时语音成为输入方式的第一选择。伴随各种智能音箱、或者Iphone X等采用深度摄像头应用的普及，中远场景的动作输入将逐渐成为重要的输入方式之一。

　　三. 设计建议

　　用「语音交互框架」匹配「使用场景」

　　语音交互带来人机交互向更自然的方向提升，人机交互更趋近于「人人交互」，怎样理解语音交互框架，我们可以从人人交互一探究竟。

　　现在回想你让别人帮你把水杯拿过来，你与这个人的交互节点是什么样子的?

　　首先你要叫他的名字，如果他听到了会回答你「干嘛呀」或给你个眼神儿，这时候你知道他在听你说话，你可以继续说了「把水杯拿来」。他可能需要想想水杯在哪或者问你，当他去拿水杯你会看到他正在行动。将与人的语音交互节点提炼出来，进行总结就是语音的交互框架：

如何打造优秀的语音交互体验？这儿总结了四个方法

　　如上图所示语音的交互框架由以下四个节点构成，每个节点用户有相应需求：

　　唤醒：用户有得到「是否唤醒语音」反馈的需求

　　输入：用户有得到设备正在「听说话吗」的需求(相当于loading)

　　理解：用户有得到「在帮我说事情吗」的需求

　　回答/行动：用户有查看任务是否完成的需求

　　语音的交互框架解释了语音交互流程，等同于触屏设备定义的「点击屏幕」「双指Pinch」「摇一摇」。但是仅仅了解交互框架是远远不够的，比框架更重要的是语音交互场景，在不同场景下以上「唤醒、输入、理解、回答/行动」四个节点有不同设计方式。

　　举个例子：在语音交互的第二个节点 – 输入中需要用「波形高低」与「语音响度高度」相匹配来给用户正在聆听的反馈，在不同场景下波形要采取不同的设计策略：

　　车载场景：驾车时用户的视觉注意力被路况占据，这时候一方面需要引入「叮」的一声语音反馈，另一方面需要设计采取更强的视觉波形确保一瞥既得。

　　语音音箱：语音音箱的场景虽然不像驾车场景注意力被强占据，但是它是没有屏幕的，这时候一般会采取带强弱有呼吸感的灯效解决反馈的问题。

　　「无形」的语音能「附着」在各种设备上，场景也是千变万化的。在设计时要时刻记住「唤醒-输入-理解-回答/行动」的语音交互框架和每个节点的用户需求，关注用户的使用环境，和视觉/听觉注意力的占据情况，不要局限只用声音做反馈。

　　唤醒设计

(责任编辑：admin)