网易用研：超全面的语音交互知识科普

　　为什么会有语音交互?它适用于什么场景?不适用于哪些?文章为你解读。

　　一. 什么是语音交互

　　在没有机器之前，人类最早的交互方式就是语言和动作。如今，在自然交互方式的趋势下，我们又回到了语言这种交互形式上。

　　原始的交互方式，就是人与人用语言、动作、眼神交互，人与物用动作交互。机器刚出现的时候，并没有人机交互的理念，机器很难操作，需要人去学习和适应。肖尔斯的「QWERTY」键盘会流传开来就是因为这种字母的排列设计可以降低打字速度，避免快速输入造成按键连杆的互相干涉。

　　二战期间的研究促进了人因工程的发展，机器适应人类、提高人的效率的理念得到发展。在计算机领域，从命令行界面(CLI)进入到图形用户界面(GUI)是一大突破，随后发展到目前的主流操作方式触控，使用手指在屏幕上滑动点按。语音交互界面(Voice User Interface，VUI)、手势、动作、表情交互，甚至脑机接口，都属于自然用户界面(NUI)。

　　从载体上分，语音交互以手机或电脑为载体，或以其他硬件为载体。除了这些，在客服、教育和医疗等行业也都有应用，如客服语音质检、口语测评等。

网易用研：超全面的语音交互知识科普

　　△ 语音交互界面的形式

　　二. 如何评价语音交互

　　VUI的效率高还是低?

　　高效的交互方式就是好的交互方式。人机交互在于提高人的使用表现，从速度、准确性、注意负荷三个维度衡量。让用户速度越快、越准确，并且占用最少注意负荷的就是好的交互。我们来看几种情况。

　　输入文本：效率极高。人说话的速度比打字快，且不需要分心看屏幕，考虑到打字输入也有错误，语音交互在输入文本表现不错。因此很多产品都会在文本输入处加上语音入口。

　　布置任务：如果我们想打快车回家，用语音助手还是图形界面的打车APP更快?由于路径短，语音助手的理论速度更快，唤醒Siri并说句话，不需要打开APP再点选。在现有状况下，输入任务容易出错。如果命令语言出现偏差，语音助手听不懂你的意思，就会导致任务失败。我们需要思考该怎么布置任务，是说「我要打车回家」还是「打开XX并打车回家」?如果语音助手三次都听不懂命令，你还会继续尝试吗?放弃语音布置任务，只要打开APP，找到熟悉的入口点击操作就完成了。

　　输出：相比即时的图形反馈，语音是一种不太合格的输出方式，它过于缓慢、效率低下。由于听觉是线性的，我们只能听完一句话再听下一句，而不能像视觉一样瞬间完成图片加工，也不能在文本间扫描跳过，电话语音服务系统就是这种浪费时间的方式。另外，持续听语音还会消耗大量注意和记忆资源。如果客服念完却没有听到想要的内容，重听按0是另一场噩梦。另一方面，我们大部分的信息来自于视觉，但语音方式不能输出视觉信息。

　　适合双手被占用的场合

　　语音交互适合在哪里使用?双手被占用时，如驾驶、烹饪、游戏等情况。比如，开车时眼睛需要看路，双手握着方向盘，而且车内环境既安静又私密，这种情况下就适合使用语音交互。另外，在输出层面上，如果视觉通道被占用，听觉通道更适合接收紧急和重要的通知。

　　门槛极低

　　语音交互的支持者认为，语音是最自然的交互方式。人人都会说话，门槛极低，尤其对于输出困难人群(如视力障碍人群)，他们完全可以无障碍的使用语音交互的形式。但是另一方面，习惯触控的人群不一定愿意转向语音，对新技术有畏难情绪的人群也可能不愿意尝试语音交互这种「新」的技术。

　　语音可以传递情感，但人还不适应和机器交谈。

　　语音由于有声调和节奏，相比文字，更能传递情感。问题在于我们不习惯和机器人或者手机对话。据统计，在公共场合使用Siri的人只有3%。我们默认语言是人和人交流的方式，或是和猫、狗这种我们认为有人性的动物交流的方式。当人与物进行交流时，更多会采用动作交互。因此人和手机说话时会有很奇怪的感觉，尤其对于东方人来说，心理障碍可能会更大。

　　为了减少用户的压力，拉近心理距离，很多智能语音助手会设定自己的「人物形象」。例如Siri高冷又忠诚，微软小冰可爱又贫嘴。另外，语音助手大多是女性声音，也是因为女性的声音听起来更加和善包容。在操作过程中出现问题，如果响起了男性的声音，容易给使用者产生被责备、被批评的感觉。

(责任编辑：admin)

搜索

热门标签:

网易用研：超全面的语音交互知识科普