网易用研：超全面的语音交互知识科普(3)

　　目前来讲，遇到的问题至少有分词、歧义和未知语言处理。中文不像英文单词有空格分开，而且歧义性高，对AI有更高的要求。例如「南京市长江大桥」就可以分成「南京市/长江大桥」和「南京市长/江大桥」两种，「鸡不吃了」有多种含义。和Siri说「打开饱了么外卖」，在它没有学过「饱了么」这个单词的情况下，它将如何处理?

　　多轮对话问题

　　我们觉得语音助手很蠢，有时是因为它违反了人类对话的原则。人类对话看似简单，但会根据对方的背景和自己掌握的信息，调整对话内容，上下文之间也会有呼应关系。但是，现有的很多产品，其对话缺少关联性。语音助手不理解上下文背景，只能进行单轮对话，看似进行的多轮对话其实也只是多个单轮对话的组合。

　　「愚蠢」带来的一是不自然，二是增加任务难度。比如当你问语音助手「明天的天气是什么?」它说下雨，再接着问「后天呢?」这时它并不明白提问的是后天的天气，只能再完整的问一次「后天的天气是什么?」

　　在下面这个对话里，小冰一会儿说阴阳师是游戏，一会儿是电影，并没有对话的记忆。

网易用研：超全面的语音交互知识科普

　　△ 小冰没有对话的记忆

　　四. 语音交互设计规范

　　由于语言尤其口语的形式不固定，变化很大，VUI的交互设计和GUI截然不同，更加细致繁琐。亚马逊已经给开发者提供了成熟的交互设计规范。

　　语音交互设计至少可分为几步，首先建立功能目的，其次撰写脚本，即用户和系统如何对话，第三步是制定流程、用户使用路径等，还需要定义技能的结构，包括完成一个功能需要哪些参数、用语有哪些变化。例如对于同一个功能，用户可以说「天气怎么样」也可以问「外面下雨吗」。

　　远场语音交互产品的冷启动

　　远场语音交互产品存在冷启动周期，只有积累了一定数据才可以更好提升产品体验，但如何提高销量、积累数据是产品启动时需要思考的问题。如果希望语音交互产品可以成为平台，千万量级是基本门槛，如果Echo在今年的销量可以达到预计的两千万台，基本上有了足够数据，有成为平台的希望。国内一些模仿者使用节日促销的模式，例如双十一天猫精灵99元的售价，卖出了100万台，希望通过这种方式进行数据的初步积累。

　　缺乏持续使用动力和核心场景

　　新鲜劲过去后，很多人会对语音交互失去兴趣，触控仍然是主要的交互方式。Creative Strategies的数据发现，97%的人在两周时间内会对Alexa的新功能失去兴趣。Voice Lab的数据发现，62%的安卓用户很少或者偶尔使用语音助手，这一比例在iOS用户上是70%。目前，语音交互缺乏只有其才能实现的核心功能，即使亚马逊的Echo，它最多的用途仍然是听歌，缺少核心竞争力和不可替代性。

　　五. 问题讨论

　　语音交互是否会成为主流交互方式

　　笔者的意见是，就像触控没有取代鼠标键盘，语音交互不太可能成为主流的交互方式。交互界面本来就是多模态的，语音交互将丰富现有的交互形式而不会取代其他。如前文所述，语音交互不能解决所有问题，只是在特定的场景可以发挥作用。

　　伴随语音的多交互通道是不错的选择，例如语音和触控结合可以提高准确度，语音和视觉结合，实现语音输入加视觉反馈，或者加上手势等。

　　是否需要追求语音交互的纯洁性

　　Echo团队认为，语音是最自然的交互方式，因此坚持设计语音交互，但语音输入和视觉输出的模型已被证明其成功性，我们在手机上使用的语音交互模型就是如此。新品Echo Show也装上了屏幕，可以显示视觉信息了。所以是否有必要坚持纯粹的语音交互模型?答案似乎已经很明显。新问题是，如果Echo加上了屏幕，用户会认为它是音箱还是平板?

网易用研：超全面的语音交互知识科普

　　△ 加上屏幕的Echo Show

　　六. 语音交互的定位

　　本质上，语音交互允许人通过语音的方式完成任务，能通过语音完成的，触控也可以，Siri可以做到的，Echo也可以，做不到的大家都做不到。所以语音交互能够完成什么独有的任务以体现它的价值呢?

　　VUI vs. CUI

　　语音设计师Cheryl Platz在她的Medium上反复提及一个问题，VUI还是Conversational UI?

(责任编辑：admin)

搜索

热门标签:

网易用研：超全面的语音交互知识科普(3)