小时候很喜欢一部剧叫《恐龙战队》,里面有个角色叫“阿尔法”,是个每天忙来忙去的机器人,能传唤队员并和他们交流,令我很好奇。 今天,我们对于能对话的机器已经不那么新奇了,这得益于智能语音技术的发展和一些语音产品的出现。一度调戏Siri成为全民话题,这肯定不是Apple公司初衷。这暴露了它的不完善,也让大众离语音产品更近了。本文是我在学习智能语音过程中的思考,希望从智能语音的人机交互层面给大家带来一些启发。 语言是人类文明的重要成果,也是人类最重要的工具之一,它为保存和传递人类文明起到了不可或缺的作用。概括来说它的主要作用就4个字:传递信息。 “而我们所说的智能语音,学术界叫“自然语言处理”,是计算机科学领域与人工智能领域的一个研究方向,主要研究能实现人与计算机之间用自然语言进行有效传递信息的理论和方法。—引自百度 ” “交互”一词全名是“人机交互”,是一门研究系统与用户之间交流、互动关系的学问。 智能语音交互严谨点说应该是自然语言交互(natura language interaction),为了方便理解我依然采用“智能语音交互”这个词。 计算机技术及人工智能领域发展迅速,对“自然语言处理”的研究也异常火热。 siri、微软小冰、google now、Echo、科大讯飞、京东叮咚、出门问问等智能语音类产品开始出现,虽然存在很大的不完善,但回望历史我们能发现智能语音技术一直是在进步的。 在了解智能语音的过程中,我产生了一些问题,围绕这些问题我对智能语音交互进行了一些思考,希望能给你带来一些启发。 1、智能语音能成为人类主流的人机交互方式吗? 这个问题在知乎引起了很大的争论,而我倾向于智能语音交互会成为人类主流的人机交互方式之一。 人类与世界万物的交互过程大概是这样的:通过眼睛去观察人、事、物、环境等,再辅以耳朵听、鼻子闻、舌头尝、嘴巴交流、肢体触碰,而后大脑产生记忆和思考并做出动作、表情、语言和生理反馈,这个过程是循环和组合的。 不同的环境和习惯会有不同,但基本是在这个范围。 这个过程中,前半部分主要是接收信息,后半部分主要负责交流互动,而语言和动作是最主要的交流互动方式。 人机交互角度看,用手操控是这个世界绝对的主流 我们每天使用的手机、电脑、相机、汽车,包括现在很火的AR、VR设备,基本上都要靠手去操控。(用手操控属于动作这个范畴)这跟人类的进化方式有很大关系,我们的祖先从学会制作工具开始,手就成为了人类接触万物的最主要工具。 尤其是机械的出现,只有人类灵巧的双手才能精准的操控完成任务。 可是人的手有几个缺陷:不够长,不够多,需要配合眼睛,这给我们的生活带来了很多不便。
举个例子: 当我们在开车时,眼睛和手被占用,再去操作手机、中控触屏等设备会非常不便,危险系数也会大大增加。 原本语言是人与人之间交流的工具,很难像双手一样直接与物体产生反应。 但是随着公认的第四次工业革命的到来,人工智能让我们有了更多可能,当机器能听懂我们的意思并很好的执行时,很多场景的人机交互方式将会被改变,更多适合的场景将会被挖掘出来,就像当年智能手机进入我们的生活。10年前,我们是无法想象通过手机做现在的大多数事情的。 所以我的浅见是: 智能语音技术会成为人类主流的人机交互方式之一。 成为之一,是因为除了语音外,原本的手的操作、体感操作、面部表情识别、注意力识别、甚至是情绪的波动,都可能在不同场景成为我们与机器的交互方式,未来这很可能是综合的交互体验。 2、智能语音技术发展到什么阶段了? 智能语音分近场语音和远场语音。 “近场的定义是小于1个波长的范围内(或者波长量级)的电磁场。而远场是电磁波传播到远处之后的场(分布)。——引自百度” 近场语音主要是基于手机等设备,基本上是一些辅助的使用需求,Siri和微软小冰就是近场语音产品。远场语音也越来越受重视,亚马逊的Echo就是远场语音,很受欢迎,至少用户能在5米外的距离语音指示它播放音乐。 自然语言理解方面的研究已经60多年了,虽然还不完善,但令人欣喜的是类似Siri、Echo这样的产品不断涌现,而不再是虚无缥缈的概念。 简单了解下自然语音处理的技术过程: (责任编辑:admin) |