当我们与机器进行语音交互时,机器需要通过声学处理我们的声音和周围环境,减少干扰和噪音。再通过语音识别技术将听到的声音翻译成文字,语义理解技术则会分析这些文字的意义,最后机器去执行用户的指令或者通过语音合成技术把要表达的内容合成语音。
在此过程,声学处理、语音识别、语义理解等属于自然语言理解,语音合成等是自然语言生成,这些都是非常核心的技术,还要配合人工智能、机器深度学习等等。 但是现阶段依然困难重重。 真实环境下,受噪音等影响机器仍然听不准自然语言。机器将听到的语音翻译成文字时,重音、口音模糊、语法模糊等又很影响成功率。人类语言太复杂,受到单词边界模糊、多义词、句法模糊、上下文理解等影响,语义理解又是一大障碍。 再举个例子: 如果一门课程上一年没开设,对于“这门课程去年有多少同学没通过”这样的问题,机器是回答“都没通过”还是“去年没开这门课”?同时机器还需要提前存储“去年没开这门课”的信息。 想想我们从小时候啥也不懂到现在懂得的知识和信息,这是难以想象的数据量!所以现阶段来看,在某垂直领域开发智能语音产品是相对现实的选择。 3、智能语音交互与界面交互的异同点是什么? 研究智能语音与机器的交互,不得不说界面交互,这是使用者和设计者都非常熟悉的人机交互方式。从界面交互出发,其实有很多可思考的或借鉴的点。 界面交互是线性的,而语音交互是非线性的 界面交互是一种线性的交互方式,本质上是不同的页面通过不同的层级关系串联起来的。所以,我们在使用的时候会有一层层返回,tab导航切换,回到app首页和home键回到手机桌面的概念。 语音交互不适合这样做,我们人类在语言交流时,是一种非线性发散式的,我们会在聊某个话题时突然切换到另外一个不相关的话题上,这之间没有层级关系,更谈不上返回关系。 界面交互更多过程,语音交互直接指向结果 界面交互在设计的时候,是将很多“小任务”(按钮点击、模块选择、页面跳转等等)提供给用户,用户通过不同的组合选择,最终达成自己的目标。 但是在语音交互时,更多是直接表达,你会跟服务员说:请给我一杯咖啡。而不会说:请用杯子从咖啡壶里倒一杯咖啡给我。 界面交互可以没有目标,语音交互需要准确的目标 我们在使用电脑和手机上网时,有时候是漫无目的,但在语音交互产品上如果漫无目的的进行下去,会让人很烦躁,因为你得不停地说下去。 语音交互的私密性更强,没有界面交互覆盖的使用场景多 当我们在一个人多的场合可以毫无顾忌的使用手机和ipad,但若跟机器进行语音对话,就会令人很尴尬。再例如,在ATM机上取款时你会使用语音吗??
所以在一些使用语音交互效率高的场景,如何避免这样尴尬的情绪很重要。而另一些更私密的场景语音交互可能是个灾难。 4、智能语音交互适合哪些使用场景? 任何一款产品不管是什么样的交互方式,没有使用场景,满足不了用户需求,一定是无法成功的。智能语音类产品也不例外,并且从现阶段的技术上来看,垂直一些的使用场景更适合用智能语音交互。 汽车的车载智能语音系统,已经有很多商业产品了。是不是可以在挖掘出其他出行场景呢?比如骑车时? 儿童娱乐和教育也是适合语音交互切入的行业,也有很多公司在做。 智能语音类产品还可以应用于客服行业,可以极大的程度降低人员成本,也可以解决语音客服体验差效率低的问题。 (责任编辑:admin) |