目前来讲,遇到的问题至少有分词、歧义和未知语言处理。中文不像英文单词有空格分开,而且歧义性高,对AI有更高的要求。例如「南京市长江大桥」就可以分成「南京市/长江大桥」和「南京市长/江大桥」两种,「鸡不吃了」有多种含义。和Siri说「打开饱了么外卖」,在它没有学过「饱了么」这个单词的情况下,它将如何处理? 多轮对话问题 我们觉得语音助手很蠢,有时是因为它违反了人类对话的原则。人类对话看似简单,但会根据对方的背景和自己掌握的信息,调整对话内容,上下文之间也会有呼应关系。但是,现有的很多产品,其对话缺少关联性。语音助手不理解上下文背景,只能进行单轮对话,看似进行的多轮对话其实也只是多个单轮对话的组合。 「愚蠢」带来的一是不自然,二是增加任务难度。比如当你问语音助手「明天的天气是什么?」它说下雨,再接着问「后天呢?」这时它并不明白提问的是后天的天气,只能再完整的问一次「后天的天气是什么?」 在下面这个对话里,小冰一会儿说阴阳师是游戏,一会儿是电影,并没有对话的记忆。
△ 小冰没有对话的记忆 四. 语音交互设计规范 由于语言尤其口语的形式不固定,变化很大,VUI的交互设计和GUI截然不同,更加细致繁琐。亚马逊已经给开发者提供了成熟的交互设计规范。 语音交互设计至少可分为几步,首先建立功能目的,其次撰写脚本,即用户和系统如何对话,第三步是制定流程、用户使用路径等,还需要定义技能的结构,包括完成一个功能需要哪些参数、用语有哪些变化。例如对于同一个功能,用户可以说「天气怎么样」也可以问「外面下雨吗」。 远场语音交互产品的冷启动 远场语音交互产品存在冷启动周期,只有积累了一定数据才可以更好提升产品体验,但如何提高销量、积累数据是产品启动时需要思考的问题。如果希望语音交互产品可以成为平台,千万量级是基本门槛,如果Echo在今年的销量可以达到预计的两千万台,基本上有了足够数据,有成为平台的希望。国内一些模仿者使用节日促销的模式,例如双十一天猫精灵99元的售价,卖出了100万台,希望通过这种方式进行数据的初步积累。 缺乏持续使用动力和核心场景 新鲜劲过去后,很多人会对语音交互失去兴趣,触控仍然是主要的交互方式。Creative Strategies的数据发现,97%的人在两周时间内会对Alexa的新功能失去兴趣。Voice Lab的数据发现,62%的安卓用户很少或者偶尔使用语音助手,这一比例在iOS用户上是70%。目前,语音交互缺乏只有其才能实现的核心功能,即使亚马逊的Echo,它最多的用途仍然是听歌,缺少核心竞争力和不可替代性。 五. 问题讨论 语音交互是否会成为主流交互方式 笔者的意见是,就像触控没有取代鼠标键盘,语音交互不太可能成为主流的交互方式。交互界面本来就是多模态的,语音交互将丰富现有的交互形式而不会取代其他。如前文所述,语音交互不能解决所有问题,只是在特定的场景可以发挥作用。 伴随语音的多交互通道是不错的选择,例如语音和触控结合可以提高准确度,语音和视觉结合,实现语音输入加视觉反馈,或者加上手势等。 是否需要追求语音交互的纯洁性 Echo团队认为,语音是最自然的交互方式,因此坚持设计语音交互,但语音输入和视觉输出的模型已被证明其成功性,我们在手机上使用的语音交互模型就是如此。新品Echo Show也装上了屏幕,可以显示视觉信息了。所以是否有必要坚持纯粹的语音交互模型?答案似乎已经很明显。新问题是,如果Echo加上了屏幕,用户会认为它是音箱还是平板?
△ 加上屏幕的Echo Show 六. 语音交互的定位 本质上,语音交互允许人通过语音的方式完成任务,能通过语音完成的,触控也可以,Siri可以做到的,Echo也可以,做不到的大家都做不到。所以语音交互能够完成什么独有的任务以体现它的价值呢? VUI vs. CUI 语音设计师Cheryl Platz在她的Medium上反复提及一个问题,VUI还是Conversational UI? (责任编辑:admin) |