一文读懂对话式交互技术原理及流程设计.doc
《一文读懂对话式交互技术原理及流程设计.doc》由会员分享,可在线阅读,更多相关《一文读懂对话式交互技术原理及流程设计.doc(8页珍藏版)》请在三一文库上搜索。
1、一文读懂对话式交互技术原理及流程设计一、对话式交互技术以智能音箱、智能电视为代表的对话式交互,是时下非常火热的、且能够走近我们生活的人工智能子领域。什么是对话式交互呢?我们首先从一个例子开始。贾维斯,电影钢铁侠中那位钢铁侠的 AI 管家,他能独立思考、可以实时帮钢铁侠处理各种事情,包括计算海量数据。其中最让观众印象深刻的就是,贾维斯可以随时随地像人一样进行口语交流,来解决钢铁侠的问题。贾维斯能听、会说,能实时理解主人的对话意图并根据实际场景进行下一步的对话,如果在对话过程中碰到有歧义的情况,他还会追问钢铁侠,让他提供更多的信息来消除歧义。贾维斯的这些能力就是对话式交互要提供的,其中的核心是 V
2、UI (Voice User Interface,语音用户界面)的设计。相对于 GUI(Graphical User Interface,图形用户界面),VUI 解放了人的双手,某些场景下,简单的一句语音命令就能代替 GUI 下鼠标 / 遥控器的多次点击,这带来的不只是方便,还节省了时间。一个好的 VUI 系统,能够让用户尽可能通过最少轮次的对话实现既定意图的执行。贾维斯总能在危机时刻帮到钢铁侠,他是一个具有完美 VUI 的语音助手。嗯,我们不要入戏过深,贾维斯是一部电影里的虚拟系统。那么,现实生活中,我们能创造出来一个接近贾维斯的对话式交互系统吗?我们该怎么做呢?呃,很遗憾,以当前的科技发展
3、水平,我们还做不到电影里那么智能,更不用说让机器有意识。但人机交互并不是昨天才发明出来的,人类在这个领域已经探索了几十年,我们可以实现钢铁侠与贾维斯的交互方式,并用这种方式来帮我们处理一些数据或控制我们身边的一些硬件设备(比如让语音助手根据天气提供穿衣建议或者控制厨房和卧室的各个家电),这就是我们要聊的对话式交互技术。对话式交互技术包括了语音识别 / 合成、语义理解和对话管理三个部分。当下的对话式交互产品主要分两类:以微软小冰为代表的开放域(Open Domain)对话系统和以亚马逊 Alex 为代表的任务导向(Task Oriented)对话系统。以现在的技术能力,在开放域聊天中,准确理解用
4、户的话并给出正确答案的难度是很大的,因为面对用户千奇百怪的提问,机器对意图的理解很可能出现错误,知识库也可能涵盖不了那么广。开放域聊天更像是一个信息检索系统,基于已有知识库,为用户的输入匹配到一个答案。这样的对话能力是十分有限的,构造一个完善的知识库更是困难重重。而任务导向的对话系统旨在帮助用户完成特定领域的任务,比如查询天气、订酒店,这种领域特定的对话系统的最大优势是实现起来相对有效并且易于产品化。二、对话式交互流程回顾一下钢铁侠和贾维斯的交互过程,我们以钢铁侠询问贾维斯当前装备的损伤状况为例,他们的对话可以概括如下:钢铁侠向贾维斯询问,贾维斯接收到钢铁侠的话并理解他的意图,然后去查询相关数
5、据,最后把数据展示在屏幕上或读出相关数据给钢铁侠听。这个交互的过程可以总结成下面这张图: 钢铁侠向贾维斯询问:钢铁侠的语音流发送给贾维斯。 贾维斯接收到钢铁侠的话:贾维斯将语音识别为对应的文字,并将口语化的文本归一、纠错,并书面化。 理解他的意图:贾维斯进行语义理解,并进入对话管理。这里省去了多轮对话的示意,当意图相关信息不明确时,贾维斯会发起确认对话,钢铁侠也可以根据贾维斯的反馈,继续问其他相关内容,这些都是语义理解和对话管理服务的范畴。 然后去查询相关数据:在对话式交互服务中,这个流程的提供者我们称其为内容服务。 最后把数据展示在屏幕上:对话结束,产生执行动作。 或读出相关数据给钢铁侠听:
6、对话结束,语言生成文本经过语音合成服务,转换为语音流,播报给用户。我们一般称将这样的对话式交互系统为语音对话系统(Spoken Dialog System)。这里简单描述下各个组件。语音识别 ASRASR(AutomaTIc Speech RecogniTIon)直译为自动语音识别,是一种通过声学模型和语言模型,将人的语音识别为文本的技术。近年来,随着深度学习在语音识别中的广泛使用,识别的准确率大大提高,让这项技术能被广泛地应用于语音输入、语音搜索、实时翻译、智能家居等领域,让人与机器的语音交互变为可能。语义理解 NLU语音识别只是知道我们说了什么,但真正要理解我们说的是什么,就需要依靠 NL
7、U 这项技术。NLU(Natural Language Understand)直译为自然语言理解,是 NLP(Natural Language Processing,自然语言处理)的一个子集,专注于口语表达和对话方向的自然语言处理。我们首先快速了解一下 NLP,NLP 研究主要用来解决下面这些问题: 分词:中文的书写词语之间不会用空格等符号来分割,分词就是将汉字序列切分成词序列,因为在汉语中,词是承载语义的基本单元。比如从北京飞上海这句话的分词为:从 北京 飞 上海。 词性标注:词性用来描述一个词在上下文中的作用,如名词、动词、形容词等,词性标注就是识别这些词的词性,来确定其在上下文中的作用。
8、 命名实体识别:在句子中定位并识别人名、地名、机构名、数字、日期等实体。 文本分类:文本分类就是将一篇文档归入预定义类别中的一个或几个,比如将某一类邮件归类为垃圾邮件,区分不同新闻的类型等。 情感分析:情感分析是找出说话者或文本作者对某个话题的两极性观点(积极或消极)、情绪(高兴、悲伤、喜欢、厌恶等)。自然语言理解通过使用上述技术,完成指代消解、否定判断、语句泛化、口语归一化、ASR 纠错等工作,识别人机对话中的领域和意图,获得对话任务的语义信息。我们可以通过下面几个例子感受一下:1. 第 45 任美国总统是谁?他是哪里出生的?他 = 唐纳德特朗普2. 感觉怎么样?不太好 不要紧 没问题 有问
9、题 没有问题 没没没 没事3. 我要看温情的电影 来个柔情的片子 我想看看暖心的影片语义表示有多种形式,本系列使用的是最常见也是目前为止最成功的 框架语义(Frame SemanTIcs),即采用领域 (Domain)、意图(Intent)和词槽(Slot)来表示语义结果。 领域(Domain):领域是指同一类型的数据或资源,以及围绕这些数据或资源提供的服务。比如天气、音乐、酒店等。 意图(Intent):意图是指对于领域数据的操作,一般以动宾短语来命名,比如音乐领域有查询歌曲、播放音乐、暂停音乐等意图。 词槽(Slot):词槽用来存放领域的属性,比如音乐领域有歌曲名、歌手等词槽。举个例子,从
10、北京明天天气怎么样这句话中,NLU 可以得到以下语义结果 领域(Domain):天气 意图(Intent):查询天气 词槽(Slot): 城市(city) = 北京 时间(date) = 明天对话管理 DMDM(Dialog Management)直译为对话管理,是对话式交互系统的核心,负责控制整个对话过程。主要包括对话上下文(Dialog Context)、对话状态跟踪(Dialog State Tracking)和对话策略(Dialog Policy)几部分。 对话上下文:记录对话的领域、意图和词槽数据,每个领域可能包含多个意图的数据, 一般以队列的形式存储。 对话状态跟踪:每轮对话开始后
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 读懂 对话 交互 技术 原理 流程 设计
链接地址:https://www.31doc.com/p-3363308.html