目录
评论

内容目录

  • 一、为什么要用智能对话?
    1.1 智能对话使自然人机交互成为现实
    1.2 智能对话已经持续产出商业和社会价值
  • 二、智能对话的发展现状
    2.1 技术发展现状
    2.1.1 智能对话基础技术
    2.1.2 问答型智能对话技术
    2.1.3 任务型智能对话技术
    2.1.4 闲聊型智能对话技术
    2.2 行业应用现状
    2.2.1 智能对话行业应用广泛,企业投资意愿较强
    2.2.2 行业用例集中在客服、销售领域
    2.2.3 企业使用智能对话的预期收益较为明确
    2.2.4 三类挑战制约应用的进一步发展
  • 三、如何使用智能对话?
    3.1 确立实施战略
    3.2 选择应用场景
    3.3 落地技术方案
    3.4 寻找合作伙伴
  • 四、智能对话未来展望
    4.1 技术展望
    4.1.1 专业型智能对话系统快速演进
    4.1.2 通用型人机对话系统初现端倪
    4.2 应用展望
    4.2.1 横向拓展——生态演进促进规模化应用
    4.2.2 纵向深入——人工智能与物联网融合带来全面智能化
  • 结语

为什么要用智能对话?

1.1 智能对话使自然人机交互成为现实

自20世纪50年代人工智能的概念被提出以来,如何实现人与计算机系统之间的有效交互一直是信息技术界的重点课题。六十多年来,人机交互从人适应机器向机器不断适应人的方向发展,按照交互方式的不同,可以划分为以下发展阶段:

计算机语言交互:最初的人机交互是手工作业模式,操作员将提前编写好的二进制代码在纸带上打孔,然后再将纸带插入到计算机中,需要等待很长时间才能得到计算机的反馈。20世纪60年代中期,出现了命令行界面,人机交互的方式变成了问答型,用户通过命令行界面输入指令,计算机收到指令后通过字符给出反馈。这一阶段,用户主要通过手和眼与计算机进行对话,通过敲击键盘进行输入,通过字符获取输出。

图形用户界面交互:20世纪80年代,微软公司推出的Windows操作系统使计算机操作系统呈现出通俗易懂的图形化界面,配合同时期苹果公司推出的流行于商业市场的鼠标,图形用户界面交互从此产生。进入21世纪,以智能手机为代表的多点触屏产品风靡全球,人机交互的门槛进一步降低。在这一时期,用户仍然通过手和眼与机器进行对话,但用户的输入方式从敲击键盘变成了操作键盘、鼠标、触摸屏等多种类型,计算机输出的内容也从单一的字符变成了文本、图表、音视频等多种形式。

自然人机交互:自然人机交互是人机交互的未来。在这一阶段,用户可以利用多种方式,包括手势、眼神、语音、触碰等,以最自然的方式对计算机进行多维、非精确信息的输入,计算机可以在接收到多个维度的输入后对信息进行整合,并进行精确的理解,对用户输出立体化的反馈。得益于计算机视觉、语音识别、语义理解、深度学习等人工智能技术的发展,机器已经可以理解并执行人类语言指令。

从计算机语言到图形界面,再到自然交互,人机交互一直朝着简单、高效、丰富、自然的方向发展。而在自然交互的多种方式中,语音交互起步最早、发展最深、应用最广。因此,可以说智能对话的出现,使自然的人机交互第一次成为现实,并将在未来的万物互联时代,继续扮演人机之间沟通桥梁的重要角色。

1.2 智能对话已经持续产出商业和社会价值

尽管能够融合不同数据类型做决策、支持各种交互方式的人工智能系统尚未普及,但在需求十分迫切、解决方案相对成熟的领域,智能对话已经被越来越广泛地采用,并产生了显著的商业和社会价值。

行业级(B端)的价值提升

智能对话的价值已在各行业用户中得以体现,技术升级和推广拓宽了行业应用场景,新的产品和应用为行业带来了效率和价值的提升。

在金融业:中国已经有上百家银行、证券公司、保险公司使用智能对话系统。目前,智能对话主要用在问题咨询、外呼、工单管理等客服场景中。基于智能化的语音数据捕获和分析,未来智能对话的应用场景还包括贷款、理赔处理以及提高销售专业性和丰富客户体验等更多方面。

阳光保险智能对话实践

保险公司呼叫中心是典型的“劳动密集型”领域,客服人员长期面临高强度的情绪劳动工作,由此带来的“人员流失” 、 “服务不一致”等问题对保险企业的人力成本和服务质量产生了消极影响。为此,保险行业尝试引入人工智能客服,引发了一场资源和人才的连锁反应。

阳光保险于2017年开始人工智能对话的探索,其智能客服“小阳”在2018年年底正式上线。目前,基于文本交互的智能客服可覆盖业务场景下70%以上的问题,语音交互的智能客服主要用于售后回访,对话准确率达85%。在智能客服的协助下,在线客服响应速度大幅提升,人工客服的数量及工作时间均缩减为原来的50%,也让工作人员有更多的精力、以更专业的能力服务客户。智能对话技术在为企业有效节约营运成本的同时也提升了客户体验。

在零售业:众多零售商将人工智能集成到传统的客服系统中,为用户提供个性化产品建议,并主动推送相关产品。一些零售企业与社交媒体合作,以微服务的形式,通过聊天工具为用户提供服务。更多的中小零售企业不再单独建设客服系统,而是直接使用社交平台的对话系统来接管用户服务。目前行业内广泛应用的自动电话回访也将人工从繁琐的售后回访中解放。

在制造业:从家用电器到大型设备,各类型的制造企业都在寻找机会嵌入智能对话系统,使用户可以控制具有对话 式交互功能的电器设备,对人工效率、能源节约、安全防护都有显著提升。

在政务领域:已经有多地政府使用具备语音交互功能的自助终端以减轻行政人员的工作负担并提高办事效率。智能终端可以通过多轮对话快速准确地引导群众定位办事流程,收审所需材料,大幅压缩了等待时间。

上海市徐汇区行政服务中心智能对话实践

随着“互联网+政务”的不断推进,各地政府在人工智能、大数据的助力下探索服务升级新途径。2018年11月,上海市徐汇区建立了24小时自助政务服务大厅,可通过多种类自助服务终端,提供29个部门654项政务服务事项的自助办理。该项目运行以来,累计服务人次超6.7万,自助服务办件量占总办件量的45%。

目前自助服务设备涵盖自助办理工作台、自助签注机和社保、医保自助终端等十大品类,通过智能语音引导、人脸识别、文本识别等程序完成收审材料,并利用机器学习和数据共享,不断对审批数据、审核要点自动学习,实现办事材料的精简和智能审核。

由卓繁信息依托百度UNIT开发的智能语音助手,全程提供语音对话交互,分析用户意图,简化群众在自助机器中的检索步骤,通过两轮到四轮的对话即可指导群众完成事项办理。视障人士和部分需要反复确认信息的人群可借助智能语音随时进行基本信息查询,未来在更多硬件设施的配合下,智能语音也将为上述群体带来更多的便利。

消费者(C端)的体验升级

智能对话不仅为行业用户带来了商业价值,也产生了明显的社会价值。对于普通消费者而言,生活品质和服务体验得到了双重提升。

丰富数字生活: 随着技术的快速发展,智能对话相关产品和服务被逐渐发展、采用和整合到手机、音箱、汽车等终端设备中,并催生了大量的场景化应用。技术、终端和应用的融合,让智能对话从小众场景的探索逐渐步入消费级的大规模应用,购物、烹饪、外卖、出行、家政、游戏、观影、健身等活动都可以借助语音助手等智能对话产品来辅助完成,为消费者提供了高效、便捷、丰富的数字化生活体验。

助力儿童教育: 数字科技背景下孕育和成长的数字化原生代与人工智能之间具有天然亲和力,更愿意使用数字技术替代传统的生活学习工具,为智能对话的发展提供了重要驱动。在早教场景中,伴读机器人引导儿童阅读的功能受到了许多年轻父母的追捧;在K12教育中,家教机器人能够帮助提升学习效率、丰富学习的趣味性,给予青少年朋友般的陪伴。

好成绩家教机智能对话实践

当下越来越多的家庭面临着青少年课外无人陪伴、指导学习的问题。家教机的出现一度为K12教育市场注入了新鲜血液,让学生可以随时用工具书、听名校课。但是传统的家教机集成了海量数据,让用户使用时有无从下手的感觉。

深圳好成绩网络科技公司借助百度语音识别、语音合成以及UNIT平台技术,在2017年10月开发出了行业首款伴读机器人“萌宝”。用户能够直接通过语音对话告诉“萌宝”自己的需求,从而方便准确地找到相关学习内容,让用户学习效率得到极大的提升,学习兴趣也变得更加浓厚。

机器人“萌宝”通过整合家教机80%的核心功能及资源入口,使家教机整体利用率提高了35%;同时还降低了家教机的使用门槛,用户同比增长95%,小学生用户占比高达70%。目前家教机中机器人覆盖率达90%,其种种功能的实现与智能对话技术密不可分。

改善社会福利: 随着老年人在社会人口结构中的比重不断上升,面临养老、陪护及医疗康复问题的老年人成为社会中亟待关怀的群体。多地社区及养老院通过智能语音穿戴设备随时监控老年人的身体状态,并接听语音指令下的电话呼叫以提供及时救助。“智能语音护理床”的出现使得患者可通过对话自行控制护理床状态。智能语音交互提升了养老服务的质量,也使得服务更有温度。

服务特殊群体: 对于有视觉障碍和语言障碍的特殊群体来说,目前市场中的智能语音客服和语音助理为处理个人事务提供了便利。在智能软硬件的无障碍设计中,智能对话能够更好地帮助解决信息交互困难的问题。当前智能语音报警器、应用软件中的语音验证等尝试,也正帮助残疾人士离安全、便捷的现代生活更近一步。

市场规模的增长

在政策、技术、产品化的多重推动下,中国智能对话技术市场正由萌芽期向发展期过渡,企业普遍认识到智能对话的价值,并开始投入资金购买智能对话软件、硬件及服务。IDC数据显示,在2018年,包括软件、硬件、服务在内的中国智能对话市场支出规模达到49亿元,较2017年增长115.1%。在具备发展基础、面临市场机遇的双重推动下,智能对话市场将在未来继续保持高速增长态势。IDC预计其2022年的市场支出规模达270.5亿元,2018-2022年的复合增长率为53.2%。大量的技术和服务提供商也将进入市场,并向产业链上下游延伸,推动市场的进一步增长。

图1 中国智能对话市场规模(亿元),2018-2022

来源:IDC,2019

智能对话的发展现状

随着价值的提升,智能对话在近两年的发展中呈现一日千里、遍地开花之势:从先行者的小范围探索到行业企业的全面入局,从单点应用到深入各细分领域的多方应用。技术与应用的双重创新将继续驱动中国人工智能市场高速发展。准确评估智能对话的技术和应用现状、厘清现阶段的挑战,对各行业企业进一步把握机遇、抢占先机、分享红利具有重要意义。

2.1 技术发展现状

智能对话技术旨在让计算机具备像人一样的语言交流能力,能够理解人们发出的语言指令并与人们进行语言交互,从而更好地为人们提供信息和服务。现代计算机诞生之后的半个多世纪以来,伴随着计算机技术和人工智能技术的进步,智能对话技术不断发展,经历了从规则技术向统计技术再到深度学习技术的演化升级(图2)。

图2 智能对话技术发展历程

早期的智能对话技术采用简单的启发式规则,即通过词典、模板和规则等策略实现基本的语言理解与对话决策,进而实现具有初步智能水平的聊天功能。统计机器学习时代的智能对话系统基于复杂的统计模型和特征工程(指把原始数据转变为模型的训练数据的过程),从大规模对话标注数据中自动学习对话理解与决策规律,大大改善了对话系统的表现效果。深度学习时代的智能对话系统借助大规模的深度神经网络,显著增强了对话系统的知识学习与用效率,进一步提升了对话系统的使用体验,同时也诞生了百度UNIT等用于开发智能对话系统的平台。

时至今日,智能对话技术已发展为支持多种重要应用模式,包含多种实现方法的完善技术体系。从功能实现的角度,一套经典通用的对话系统包括以下环节1(图3):

图3 通用对话系统的组成

语音识别:用户通过语音说出一条需求后,经过自动化的语音识别,将语音转化成文字。

语言理解:将文字中蕴含的“意图”和“词槽2”提炼出来。

对话状态维护:将意图与词槽与历史的对话状态进行整合。

动作候选排序:从后台用户配置的多个系统动作中选择一个最符合当前状态的动作。

语言生成与语音合成:将候选动作转化成自然语言,并合成语音,与用户做出互动。

图4 智能对话技术分类

人机对话技术以语音、语言和知识处理技术为基础,智能对话基础技术分为语音处理技术、语言分析技术和知识图谱技术;智能对话技术按不同的应用场景又可分为任务型智能对话技术、问答型智能对话技术和闲聊型智能对话技术。

1除经典通用的对话系统外,还存在搜索对话、问答对话、机器阅读理解、端到端闲聊等多种人机对话系统,其环节构成也各有所异。此处仅描述经典对话系统的构成,方便读者理解人机对话的实现逻辑。
2 “词槽”指与意图相关的关键信息。

2.1.1 智能对话基础

语音处理技术

语音识别技术

语音识别(Automatic Speech Recognition, ASR)是实现“声音”到“文字”转换的技术,即让计算机能够“听写”出不同人说出的连续语音。目前,主流的语音识别模型是注意力机制增强的神经网络端到端模型,其核心思想是借助编码器将输入的源端音频信息序列压缩为低维向量表示,再借助解码器将该低维向量表示展开为目标端文本符号序列。这一过程中,与每个音节或汉字最相关的音频特征信息可以自动被挖掘,从而更好地进行后续的预测识别过程。端到端模型抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架,实现了语音和文本一体化端到端处理,可以在规整的大规模数据集上取得很高的识别精度。

但是,注意力机制增强的端到端模型也存在缺陷,制约了其在商业环境中的大规模应用。其一,是端到端模型无法有效支持流式解码的问题,即大多要求语音都上传到服务器后才能开始计算和解码,用户等待时间较长,用户体验和实时语音交互的效果都受影响。其二,是长句建模的精度下降问题,即要处理的输入序列越长,特征信息的计算、传递和选择的难度就越大,语音识别结果出错的概率也就越高。

百度创新性地提出一种基于时序分类(Connectionist Temporal Classification,CTC)尖峰截断的流式多层注意力模型,以上下文无关的音节或者高频音素的组合作为基本的声学建模单元,通过CTC模型和注意力模型联合建模,获得了超过显著CTC模型的识别效果。该方法利用CTC模型输出的尖峰描述信息把输入特征切为特征片段,使得每个建模单元的注意力建模仅仅在一个独立的特征片段上进行,从而缓解了传统注意力模型在整个句子长度范围内进行建模所导致的精度下降问题。由于上述建模片段按从左向右顺序流式展开,整个语音识别过程也可以按从左向右顺序流式进行。实验显示,这种新的建模方法不但有效解决了传统的基于注意力机制的端到端模型在长句子上建模精度不佳的问题,还在工业界首次满足了端到端语音识别技术用于在线语音识别的流式解码的要求。

语音合成技术

语音合成(Text-to-Speech,TTS)又称文本语音转换,用于将输入文本序列转换为相应的音频波形。传统的语音合成模型包括负责分析的前端模块和负责生成的后端模块。其中,前端模块负责对输入文本进行分析并提取出后端模块所需的信息,后端模块负责根据前端的分析结果,采用参数合成方法或拼接合成方法生成语音波形。

传统语音合成模型的前端系统设计需要较强的语言学背景,而后端系统的两种生成方法也各有优缺点:参数合成方法可以在语音库较小的情况下得到较为稳定的效果,但受到统计建模能力的制约,通常无法实现准确生动的语音合成效果;拼接合成方法直接使用真实语音片段,一定程度上可以保证输出效果,但是需要的语音库较大且难以适应更多的场景和领域。

随着深度学习端到端建模技术取得广泛成功,上述问题促使端到端语音合成模型出现并不断发展。端到端语音合成模型以文本为输入,直接输出音频波形,降低了对语言学知识的要求,可以方便地适配到不同的语种和场景中,并且具有强大的风格、韵律和情感表达能力。

在基于神经网络的端到端语音合成模型的基础上,百度通过多项基础技术创新使端到端模型的语音合成效果达到了新的高度。在模型构造方面,百度采用多层双向循环神经网络,从而在句子层面更有效地学习韵律模型和声学模型。借助神经向量表示的泛化作用以及长短时记忆单元的信息归纳能力,端到端模型能够更有效地学习句子层面韵律停顿和声学参数的变化轨迹,最终获得富有情感表现力的韵律模型和声学模型。在信息输入环节,设计能够刻画文本语音深层对应关系的语义特征,作为新的上下文信息以增强模型能力;在拼接合成环节,设计基于弹性单元挑选的拼接合成技术,支持使用大单元进行拼接合成以提升合成效果。

实验结果表明,与传统机器学习模型和基本的端到端神经网络模型相比,采用上述多种创新性策略增强的端到端语音合成系统,对于大数据情感音库的建模能力更加突出,对合成效果的提升也更加明显。目前,该语音合成系统已广泛应用于百度的各个产品线,同时以开放平台的方式向广大开发者提供技术支持。

语言分析技术

词法分析技术

词法分析(Lexical Analysis)指将输入的文字序列切分为词语序列,并对序列中的每个词语给出词性或专有名词标 记的过程。

词法分析是自然语言处理任务如信息检索、机器翻译、人机对话等的基础,其求解方法经历了从以词典、规则为主的规则技术向以序列标注模型为主的统计技术的变迁。当前的词法分析方法通常以序列标注模型为主,辅以规则和词典用于处理确定性强的任务环节,例如时间词和数词的识别和标注等。

百度创新性地提出了基于统一特征框架的可定制的联合词法分析模型。联合模型采用两级递进的处理流程,首先基于联合序列标注模型进行词语切分、词性标注和粗粒度实体识别,然后利用来自百度大数据的统计特征进行细粒度实体识别。这两级处理流程基于统一的特征框架,能够更高效地共享特征与知识表示,使得整个词法分析系统更简洁、高效和易于维护升级。另外,百度词法分析系统还提供了灵活的定制化机制,通过提供垂类词表与规则定制机制,满足用户更精确的定制需求以及对前部分结果的快速干预,并能快速方便地实现词法分析系统针对特定垂类的定制。百度词法分析系统广泛应用在百度信息检索、机器翻译、人机对话等重要业务场景中。

语义表示和匹配技术

文本的语义表示与匹配是自然语言处理中最重要的基础问题之一,自然语言处理的许多具体任务都可以建模为文本的语义表示与匹配任务。语义表示的目的是将自然语言文本单位表示为计算机可以识别处理的信息形式,语义匹配的目的则是比较两个给定的自然语言文本单位之间的语义相似程度。

语义表示方法可大致分为基于符号的表示方法和基于向量的表示方法。前者将给定的文本单位表示为由离散符号构成的特定图形,后者则将文本单位表示为由数值构成的特定维度的向量。而基于深度学习技术的语义表示方法可以把多种不同形式的文本单位和数据对象均表示为特定维度的向量,从而通过对向量在语义空间中的距离测度实现语义匹配。

百度创新性地构建了适用于不同应用场景的语义表示与匹配模型,包括基于深层交互的文本匹配模型和多模态语义表示与计算模型。基于深层交互的文本匹配模型强调待匹配两端更充分的交互以及基于交互基础上的全方位匹配。该模型首先为文本中每个词语获得能够表达一定的全局信息的表示,然后对两段文本以词语为单位进行交互以构建两段文本之间的匹配矩阵。匹配矩阵包括了更细致的文本交互信息,基于此信息使用卷积操作来提取更高层级的匹配特征,最后得出匹配得分。多模态语义表示与计算将单模态的语义表示映射到公共的多模态语义空间。对不同模态的信息采用适当的神经网络进行建模,通过对不同模态信息中匹配要素的对齐以构建模态要素之间的匹配矩阵,进而使用注意力机制对多个模态的表示进行融合,最终得到多模态联合表示与匹配结果。

知识图谱技术

人机对话流程中涉及的语言理解、对话决策、信息查询、语言组织等重要环节,都需要语言知识、世界知识以及必要的领域知识的指导。其中,知识图谱(Knowledge Graph,KG)是应用最为广泛的知识表示形式之一。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,允许任意实体彼此潜在相互关联,并涵盖各种主题领域。

知识图谱相关技术涵盖知识图谱构建、知识图谱计算和知识图谱应用三个方面。知识图谱构建负责从原始数据中提取出知识要素并将其存入知识库,知识图谱计算主要包含基于知识图谱的知识表示和推理,知识图谱应用针对不同的目标任务有相应的应用方式。在对话系统中,知识图谱的具体应用可划分为三种模式。第一种模式对应问答型对话系统,该类对话系统将知识图谱视为答案信息来源,通过对话理解将用户问题转化为对知识图谱的查询,直接得到用户关心问题的答案。第二种模式将知识图谱视为用于对话理解的知识源,借助知识图谱中元素的属性及关系,为用户话语和对话上下文的语义理解提供辅助。第三种模式对应主动对话场景,借助知识图谱中概念、属性和关系之间的关联,通过话题推荐等策略实现对话过程的主动引导。

百度知识图谱整体技术方案涵盖五个方面:面向海量数据的知识图谱构建技术、大规模知识图谱补全技术、智能知识图谱认知技术、超大规模高性能分布式图索引及存储计算技术和知识图谱应用技术。面向海量数据的知识图谱构建技术,研究的是知识挖掘、知识图谱化相关方法与技术,包括知识图谱数据表示与表达,针对海量开放资源的知识自动化抽取、清洗、归一、融合方法,实现大规模知识图谱构建。大规模知识图谱补全技术,是基于已有知识图谱开展的知识挖掘,对于缺失的图谱关系进行补全,包括通用实体关系、概念上下位体系等,并建立实体与外延数据的关联。智能知识图谱认知技术,主要研究基于给定知识图谱的深度语义解析技术,实现对复杂开放文本语义的深度理解,包括实体标注、概念标注、谓词标注、子图关联、知识推理、知识计算等。超大规模高性能分布式图索引及存储计算技术,研究面向海量知识数据的图存储、图索引、图计算和应用框架技术,以实现知识图谱的规模化生产和应用。知识图谱应用技术,实现知识图谱在搜索、问答、对话、自动内容生产等产品中的规模化应用。

2.1.2 问答型智能对话技术

基于检索匹配的问答技术

基于检索匹配的问答技术通过语义匹配的方式从给定的问答数据集中找出最相似的问题并给出答案。这种方式简单有效,针对问题和答案相对固定的业务场景,通常能够实现较好的对话效果。

图5 检索匹配问答技术的语义匹配流程

百度研发了融合多种策略的可配置的检索匹配对话系统。具体地,该系统实现了包括倒排索引、语义索引在内的多种索引方式,并提供了灵活的人工干预机制。该系统还提供了多种匹配计算策略供选择使用,包括基于字面特征的相似度匹配策略、基于DNN的语义相似度匹配策略,以及融合字面和DNN等多维度特征的相似度匹配策略。特别地,语义索引和语义匹配均由专门的语义相似度匹配神经网络提供支持,具体请参照前面的语义匹配章节的描述。另外,该系统还支持配置化、插件化的设计模式,有助于开发者快速构建和定制适用于特定业务场景的问答系统。目前,该系统已经在多个重要业务场景中获得成功应用。

基于阅读理解的问答技术

基于阅读理解(Document Understanding,DU)的问答技术旨在围绕给定篇章文档内容完成问答任务。具体而言,该技术面向给定的一篇或若干篇文档,对于用户对话中提出的与文档相关的问题给出正确的回答。该技术主要通过问题理解、段落排序和机器阅读理解等几个主要技术流程实现。

在基于阅读理解的问答技术中,让机器能够阅读自然语言文本,然后回答相关问题的机器阅读理解是核心,也是提升基于阅读理解的对话效果的关键。

图6 基于阅读理解的对话技术流程框架

百度在关键的机器阅读理解技术上不断探索,实现了技术突破和应用落地。首先, 在机器阅读理解技术方面,百度重点研发了面向真实应用场景的多文档阅读理解技 术。百度提出了一种全新的基于注意力机制的多文档校验模型V-NET,在此基础上 还提出了相应的强化学习训练方法。该方法面向多个真实的数据集下均取得了显著 的效果提升,达到了国际领先水平。相关成果均发表在国际自然语言处理顶级会议 ACL(Association for Computational Linguistics)上。同时,在数据集方面,百度凭 借自身深厚的数据和技术积累,结合实际业务场景的需求提出、构建并发布了面向搜 索问答的开放领域中文阅读理解数据集DuReader。该数据集包含了30万个真实问 题和150万个文档,是目前最大的中文阅读理解数据集。此外,百度还基于此数据集 举办了中文阅读理解技术评测(详细情况请访问:http://mrc2018.cipsc.org.cn/), 引起了学术界和工业界的广泛关注。

2.1.3 任务型智能对话技术

任务式人机对话系统分为两大类型,即信息检索类和服务满足类。信息检索类对话系统接收用户以语言形式发出的指令,经过对话理解、对话管理、指令执行和语言生生成等环节,查询到用户所需信息并组织语言返回。服务满足类对话系统的处理流程与信息检索类大致相同,不同之处在于,服务满足类对话系统通常不需要对用户进行自然语言形式的反馈,而是经过对话理解、对话管理和指令执行等环节完成用户发出的指令即可。

图7 任务型对话系统的

任务型对话理解的核心技术主要包括对话理解、对话管理和语言生成技术。

任务型对话核心技术:对话理解

人机对话技术赋予计算机以自然语言与人类交流的能力,必然需要让计算机具备理解自然语言中所含语义的能力。面向人机对话的语义分析即对话理解(Spoken Language Understanding,SLU),旨在让计算机理解人类自然语言语句中所含的核心意图及其关键词槽。真实的业务场景中的语言理解需求包罗万象、复杂多变,一种单一的技术策略往往难以覆盖所有的情形。在实际应用中,通常根据特定的场景选择一种特定的技术或几种特定的技术组合。

总的来看,对话理解的主要实现方法包括以下几种:

基于规则模板的对话理解技

基于规则模板的对话理解技术通过启发式规则模板的方式实现对话理解,这些规则模板可以由人工定义,也可以由机器自动学习得来。依据对特定对话任务的理解,设计少量的规则模板即可实现较高精度的对话理解。

基于规则模板的对话理解流程如下图所示。首先将开发者定义的规则模板库(由若干自定义的语义片段规则组构成)与输入语句进行匹配,获得语义解析候选结果。然后基于“候选结果-意图”的倒排索引获取所有可能的意图,构成意图候选列表。最后基于开发者所编写的规则进行一系列启发式评估,对候选的结果进行评分,从而获取最优的解析结果。

图8 基于规则模板的对话理解流程

基于实例匹配的对话理解技术

基于实例匹配的对话理解技术通过输入语句与已有实例之间的语义相似度匹配,借助少量的代表性实例即可实现对拥有类似表达的输入语句的理解,相对于基于规则模板的对话理解技术,具有更强的泛化能力3

3 指机器学习算法对于开发阶段未出现过的新样本的适应能力。

基于实例匹配的对话理解由训练过程和预测过程组成。训练过程从数据库中获取用户资源数据,对训练数据处理后构建倒排索引。预测过程将输入语句处理为特征表示,在索引实例库中进行检索匹配以获取最优候选解析结果。基于实例匹配的对话理解策略可以实现基于少量数据实例的泛化理解能力,与其他策略形成互补。

图9 基于实例匹配的对话理解流程

基于深度学习的对话理解技术

基于深度学习的对话理解技术利用深度神经网络对意图识别和词槽识别进行多任务联合建模,通过在大规模标注语料上的参数训练,将对话理解能力发挥到极致。

基于深度学习的对话理解技术通过同一个深度神经网络进行意图和词槽的识别。模型由输入层、表示层和分类层三部分组成。其中,输入层负责整合输入语句的词法分析特征,包括词语、词性、专有名词等,并获得对应的嵌入表示用作神经网络的输入;表示层通过多层双向循环神经网络或自注意力网络,学习每个词语以及整个语句的深度语义表示;分类层根据每个词语和整个语句的深度语义表示进行分类,推导得出每个词语的词槽标签和整个语句的意图标签。深度学习模型使用共享的连续值特征编码,更能反映意图和词槽之间的语义关联关系,并能有效提高语义理解的泛化能力。

对话管理驱动的对话理解技术

受自然语言歧义性的影响,很多情形下智能对话系统难以获得准确的理解结果。在经典的相继进行对话理解和对话管理的模式下,后置的对话管理过程无法有效处理前置的对话理解过程所产生的解析错误,进而影响整个对话系统的可用性。

一种在实际系统中的有效策略是用对话管理过程驱动对话理解过程。在对话管理驱动的对话理解技术中,首先在对话理解过程采用一定的技术策略实现意图和槽位的识别,获得输入语句的意图及其槽位的多个候选识别结果,然后在对话管理过程的对话状态跟踪阶段进行理解结果的整合,并根据整合结果与用户进行必要的交互式澄清与排歧。这种延迟决策的方法避免了传统的对话理解和对话管理串联模式的错误传播问题,通过保留对话理解的多种可能性并由对话管理在更高的层面进行处理,能够取得更为准确的对话理解结果。

百度提出了基于融合策略的对话理解技术,将基于规则模板、实例匹配和深度学习的对话理解技术有机整合,能够基于规则模板方法实现对话理解策略快速启动,在此基础上通过相对较少的人工标注语料,以较低的成本大幅度提高系统的泛化能力。在训练数据较少的情况下,规则模板技术可以基于百度词法分析技术快速高效的解决词槽识别问题,并灵活可控地实现意图的推导,并辅以实例匹配技术获得一定的泛化能力。在训练数据充分的情况下,深度学习技术能够有效提取输入语句的关键特征进行意图、词槽的联合识别,获得良好的泛化效果。在多种对话理解技术整合的基础上,百度还提出了交互式学习技术,通过对话管理策略驱动对话理解的优化。交互式学习通过分析对话理解结果中的不置信、歧义等情况,以及多轮对话中用户的反馈情况,自动积累对话知识,并从中学习以提高对话理解模型的效果。整个对话理解技术方案在百度内外的出行、消费、客服等场景下已经得到了广泛应用。

任务型对话核心技术:对话管理

任务型对话系统通常采用经典的多轮对话系统架构,首先通过对话理解用以识别用户输入语句的核心需求和关键词槽,然后通过对话管理(Dialog Managemen t,DM)根据对话历史信息和当前输入语句的理解结果作出对话决策,从而实现多轮对话直至满足用户需求或对话结束。具体地,对话管理主要包含对话状态跟踪和对话决策制定两个功能,前者负责识别和跟踪当前对话进展的状态,后者负责根据当前对话状态选择接下来的对话动作。

基于逻辑规则的对话管理

传统的对话管理系统是基于逻辑规则实现的,这种方式可以借助人类专家的知识,为特定的领域快速构建起重要的对话逻辑流程。基于逻辑规则的对话管理通常基于有限状态机(Finite State Machine,FSM)或者框(Frame)的原理,通过人工编撰的方式定义对话系统的对话状态、状态之间的跳转逻辑,或基于对话状态的对话决策逻辑。这种方式的优点是灵活可控、定制性强,特别适合于对话状态定义及其跳转、决策规则清晰明确的场景;其缺点是解决对话过程中的离题、歧义等异常时需要比较繁琐的配置。

基于机器学习的对话管理

基于机器学习的对话管理的最典型方法是将对话过程表示为一个部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP),其输入是对话理解的结果,输出是下一个时刻的动作策略。POMDP的内部状态是针对所有对话状态的概率分布,在每个状态下,系统执行某个动作都会有对应的回报,选择下一步动作的策略即为选择期望回报最大的那个动作。该方法的优点是只需定义马尔可夫决策过程中的状态和动作,状态间的转移关系可以通过学习得到,并且可以使用强化学习在线习得最优的动作选择策略;缺点是需要较大规模的,至少是粗标注的对话训练语料。

百度实现了多套具有不同特性的对话管理技术,包括平台化的Taskflow和开源的DMKit等,用以在云端、私有化、嵌入式等部署场景中发挥最大效能。针对千变万化的业务需求,上述对话管理技术主要基于逻辑规则构建,支持图形化和可编程的对话逻辑定义方式,为对话系统的开发提供充分的定制空间。此外,针对包含多个对话技能、包含外部业务资源的应用场景,百度在对话管理技术中引入了需求分发、应答排序、外部资源接口等机制,为对话管理过程提供更加丰富的特征与资源,有效提高对话系统的整体效果体验。

任务型对话核心技术:语言生成

语言生成(Natural Language Generation, NLG)技术研究如何让机器像人一样使用自然语言进行表达和写作。在自然语言人机对话场景中,语言生成的任务是将系统对用户的响应表达为符合人类语言习惯的自然语言语句。

在深度神经网络算法出现之前,自然语言生成算法通常采用基于规划生成的模式,包括三个核心步骤:整体规划、微观规划和表层实现。整体规划解决“写什么”的问题,具体到特定的一轮对话中,与用户意图和系统响应相关的关键信息是需要在应答结果中呈现的最重要的部分。微观规划解决“如何写”的问题,通常基于人工挖掘或定义的模板,或者借助特定的形式语言技术来解决。表层实现解决“如何形成符合人类习惯的自然语言”的问题,旨在将微观规划结果按照符合人类表达习惯的方式转换为自然语言语句。

深度神经网络技术为对话系统中带来的变革是神经网络序列生成算法,能够利用对话语料中包含的统计规律,对于用户输入语句给出符合人类语言特性的响应结果。这类方法采用神经网络进行建模,通过编码-解码框架,将用户输入语句编码为中间表示,并将中间表示解码为响应结果语句。但由于语料和模型的限制,目前这种技术实用程度还有待进一步优化提高。

图10 对话系统文本生成的过程

2.1.4 闲聊型智能对话技术

闲聊型智能对话的技术框架有两种主流形式,一是基于检索技术的聊天式对话系统,二是基于端到端技术聊天式系统。

基于检索技术的聊天系统通常由检索模型、匹配模型和排序模型构成。对于给定的用户输入话语,首先由检索模型在对话语料库中查找类似场景并返回多个候选对话问答对,然后由匹配模型判断候选问答对是否可以作为当前用户话语的合理回复,最后由排序模型根据应用场景做一些适配定制后给出最终的回复。该系统由于可以直接使用人类回复,因此在回复的通顺性和风趣性等方面占有优势,但由于缺乏自由度,无法生成从未存在过的新句子,因此被认为不能达到理想状态的对话智能。

基于端到端建模技术的聊天系统把对话问题当成翻译问题,将对话的上文看做源语言,将对话的下文看成目标语言,使用基于序列到序列的神经网络生成模型直接生成对话回复。对于给定的用户输入话语,端到端建模技术首先使用编码器网络将该输入话语编码为中间语义表示,然后借助解码器网络将该中间语义表示逐步解码为对话回复。端到端模型可以克服检索模型无法生成全新回复的缺陷,能够生成在对话实例库中从未出现过的回复,但由于缺乏对用户话语和回复机制相应的干预,难以保证生成的回复富含信息并和上下文保持连贯性。

图11 基于端到端神经网络的聊天系统

百度提出了多视角对话上下文匹配模型和深度注意力对话上下文匹配模型。基于多视角的模型通过两个不同的视角对对话内容进行抽象并进行融合学习。第一个视角从对话全局出发,捕捉整体对话层面的语义信息,第二个视角从句子层面出发,捕捉对话中每个句子的局部信息。通过融合考虑不同视角信息的作用提升了对话效果。深度注意力匹配模型借助注意力机制对多轮对话中的省略和指代等语义依存现象进行建模。句子内部的语义依存关系用自注意力机制捕获,句子之间的语义依存关系用交叉注意力机制捕获,通过堆叠自注意力来捕获不同粒度的语义依存关系,通过三维卷积提炼捕获到的对话内语义结构,最终判断对话上下文的匹配程度。上述两种方法都显著地提高了检索式聊天系统的效果领域,相应的论文也已发表在EMNLP(Empirical Methods in Natural Language Processing)和ACL等顶级国际会议上。

总的来看,随着深度学习技术的广泛使用,人机对话技术取得了长足的进步。在一些资源丰富的应用场景中,基于深度学习技术的对话系统通常能够达到初步实用的水平。然而,当前的人机对话技术仍然存在不足:一是对话系统的效果仍然严重依赖于标注数据的质量和规模,在多轮对话、对话逻辑管理、泛化能力上存在明显不足;二是从语音到语义再到决策的信息处理流程依然较为冗长;三是世界知识和领域知识依然难以有效利用,导致在知识库构建、问答匹配等方面存在问题。可以说,智能对话技术仍有待进一步突破。

2.2 行业应用现状

尽管能够融合不同数据类型做出预测、支持各种交互方式的智能对话尚未普及,但在一些技术相对成熟、需求相对迫切的领域,智能对话正得到越来越广泛的应用。根据IDC在2018年的调研,全球有38%的企业已经采用了基于智能对话的系统,有44%的企业计划在2年内使用智能对话,只有7%的企业表示还没有使用智能对话的计划(图12)。预测到2020年,全球电子商务领域40%的商业交易将由智能客服实现,基于智能对话的交互界面可以提升生产率、提高客户满意度和拓展更多的收入来源。

图12 全球企业对话式人工智能部署计划(整体)

来源 :IDC认知/人工智能应用调研,2018(n = 279)

同时,IDC全球调研也显示,客户服务、商务支持、市场营销、销售等部门对使用智能对话的态度较为积极,也对投资回报有较高的预期。其中,客服和商务部门对智能对话的部署节奏更快,市场营销和销售则相对倾向于在长期内渐进式地采用智能对话系统(图13)。

图13 全球企业智能对话使用及实施计划(分部门)

来源:IDC全球认知/人工智能应用调研,2018(n = 279)

案例:Autodesk使用智能对话提升客服效率

Autodesk是全球领先的二维和三维设计、工程与娱乐软件公司。其客服支持中心的工作人员每年需要为客户和合作伙伴提供超过100万次的服务。但是长期以来客户咨询受到呼叫并发量的限制,客户常常被告知电话占线,需要等待。

Autodesk引入虚拟客服(AVA)自动化解决简单问题,使得客服人员的时间主要用于解决更复杂的问题。虚拟客服可以7*24全天候快速识别并回答大部分客户查询,然后及时、高效地给出准确的答复。目前,Autodesk的虚拟客服已经把平均的反馈时间从36小时减少到5.4分钟,效率提升近400倍。

在欧洲,45%的企业正在将对话式客服作为与客户的第一个接触点,既提高了客户满意度又提升了效率。智能对话技术也在企业的内部开始被采用,如人力资源部门使用智能对话系统自助解决部分人力咨询问题;销售部门使用智能对话进行自动填表、编辑客户信息,提高客户管理效率(图14)。

图 14 欧洲企业智能对话部署情况

来源:IDC欧洲认知/人工智能应用调研,2018(n = 350)

案例:苏格兰皇家银行(RBS)利用数字助理提升客户体验

拥有290年历史的苏格兰皇家银行一直秉持“为客户提供出色服务”的优良传统。随着科技的发展,苏格兰皇家银行看到了智能对话与客服的契合,从而引入智能数字客服Cora全面提升客户体验。

Cora 内置超过1000条数据的问答库,能够回答客户200种日常简单问题,从而简化客服人员的工作,让其可以专注于客户最需要帮助的“关键时刻”,真正增加在线客服与客户的对话价值。同时,客服人员还可查看Cora与客户间的所有对话,从而及时做出改进。通过对话分析,Cora可以学习并掌握新的技能,并应用到实践中,从而在客户的生活中发挥更大价值,成为客户的智能财务助手。

在中国,智能对话技术也已经为市场所接受,在企业产品服务、生产模式、运营模式以及决策模式的智能化方面发挥着重要作用。在本次研究中,IDC对中国电商零售、餐饮娱乐、智能家居、旅游出行、教育培训、医疗健康、司法政务、企业服务和金融保险等行业的100家企业进行了调研,有如下发现:

2.2.1 智能对话行业应用广泛,企业投资意愿
较强

本次调研中,绝大多数的受访企业表示已经应用或正在部署智能对话。从行业上看,金融保险、智能家居、企业服务、电商零售等在智能对话的采用上处于领先;餐饮娱乐、医疗健康、政务司法、旅游出行等行业正在加快部署节奏(图15)。

图 15 智能对话的行业应用情况

  • 金融保险90.9%9.1%
  • 智能家居72.7%18.2%9.1%
  • 企业服务54.5%36.4%9.1%
  • 电商零售36.4%36.4%18.2%9.1%
  • 餐饮娱乐20%20%30%10%20%
  • 医疗健康18.2%27.3%45.5%9.1%
  • 政务司法18.2%27.3%45.5%9.1%
  • 旅游出行18.2%27.3%45.5%9.1%
  • 教育培训16.7%25%50%8.3%
已经应用
正在部署
计划在未来2年内使用
计划在未来2-5年内使用
还在评估未来用途和价值

*由于四舍五入的原因,分项和合计之间可能存在尾差

来源:IDC中国智能对话市场调研,2019(n=100)

企业也越发意识到智能对话技术投入的重要。在软硬件、IT服务和商业服务方面,绝大多数的被调研企业都已经有相应的投入,软件和硬件是企业投入的重点(图16)。

图 16 智能对话的投入计划

  • 软件66%34%
  • 硬件64%36%
  • 数据服务34%41%25%
  • IT服务63%34%
  • 商业服务29%71%
现在有投入后续打算追加
现在有投入不打算追加
现在没投入也不打算投入

2.2.2 行业用例集中在客服、销售领域

从应用程度看,与全球类似,中国企业的客服、销售部门使用智能对话的程度较高。调研显示,有41.7%的受访者表示其客服部门是智能对话的主要需求来源,25.1%的受访者认为销售部门是其所在组织智能对话的主要使用者(图17)。

图 17 智能对话的主要使用者

  • 客服41.7%
  • 销售25.1%
  • 运营22.1%
  • 产品研发4.0%
  • 行政3.3%
  • 市场公关2.3%
  • 其他0.5%
  • IT0.4%
  • 战略0.3%
  • 人力0.3%

来源:IDC中国智能对话市场调研,2019(n=100)

相应地,智能对话的应用场景也集中在客服和销售相关的业务场景下。在本次调研中,排在前五位的应用场景分别是智能在线客服、辅助人工客服、语音搜索、智能呼叫中心以及企业行政助手(图18)。

图 18 智能对话主要应用场景

  • 智能在线客服92%
  • 辅助人工客服72%
  • 智能呼叫中心48%
  • 企业行政助手35%
  • 机器人外呼21%
  • 医疗导诊17%
  • 儿童教育11%
  • 智能家电控制9%
  • 政务服务7%
  • 汽车驾驶3%
  • 商场导购3%
  • 语音搜索3%

来源:IDC中国智能对话市场调研,2019(n=100)

2.2.3 企业使用智能对话的预期收益较为明确

调研发现,88%的企业认为智能对话能有效帮助企业整体降低运营成本,87%的企业肯定了智能对话在改善客户体验方面的价值,59%的企业表示智能对话在流程自动化方面将发挥较大作用;特别值得注意的是,分别有55%和51%的受访者表示扩展产品和服务类型、提高收入是使用智能对话的预期收益(图19)。可见,企业对使用智能对话的预期收益较高且呈多样化,在降本、增效、创收等方面都希望智能对话给业务带来更大的帮助。

图 19 智能对话为企业带来的收益

  • 降低成本88%
  • 改善客户体验87%
  • 提高流程自动化59%
  • 扩展产品服务的类型55%
  • 提高收入51%
  • 发现新机会以改进战略22%
  • 提高员工生产力20%

来源:IDC中国智能对话市场调研,2019(n=100)

2.2.4 三类挑战制约应用的进一步发展

不同企业认为实施智能对话项目的挑战各有不同。在本次调研中,IDC将目前制约智能对话应用发展的挑战总结为以下三类(图20):

基础准备不足:一是企业的知识/问答类数据积累不够,难以满足业务场景需求;二是企业自身IT预算不足,难以承担项目投入成本;三是缺乏清晰认知,既不了解推行AI技术的价值,也不清楚AI技术具体能实现什么需求,更不了解如何选择供应商和解决方案。

人才技能缺乏:除人工智能理论、方法、技术、产品等方面的专业人才外,企业还在两类特定的人才方面存在明显不足:一是清楚项目落地流程,即所有环节的工作目标与内容,可以搭建项目团队并协调项目执行的解决方案架构师;二是可以熟练进行系统配置、语料收集、样本标准、结果优化的对话系统训练师。

技术有待进一步突破:当前智能对话技术在语音处理、语义处理、对话理解、对话管理等方面已经发展到较为成熟的水平,基于此构建的对话系统在多个代表性应用场景上取得了初步的成功。然而,要想更好地满足更多行业和更多用户的更高预期,需要在情绪识别、多轮对话、知识应用和领域适配等方面实现进一步技术突破,并对业务数据接入对话系统时的数据保密和隐私保护问题提供更完备的解决方案(图21)。

图 20 企业实施智能对话系统的主要挑战

  • 企业的知识/问答类数据积累不多70%
  • 缺乏应用AI技术所需的技能或资源62%
  • 项目投入的成本过高54%
  • 认为技术还不够完善47%
  • 在企业内推行AI技术的价值还不够明确,动力不强45%
  • 担心数据保密性/数据隐私问题34%
  • 缺少引领快速入门的学习材料31%
  • 不知道如何选择供应商/解决方案26%
  • 不知道业务需求应该用什么技术方案/解决方案来实现23%
  • 技术服务无法及时解决研发中的困难19%
  • 现有解决方案过于通用,无行业适配能力18%
  • 对AI技术能做什么还不太了解16%
基础准备类
技术成熟度类
人才技能类

来源:IDC中国智能对话市场调研,2019(n=100)

图 21 企业目前使用的对话系统在技术上的不足

  • 多轮对话47%
  • 知识库构建能力46%
  • 对话情绪识别44%
  • 泛化能力44%
  • 对话逻辑管理31%
  • 问答匹配28%
  • 意图识别27%
  • 声纹识别26%
  • 预置对话能力12%
  • 语音合成3%
  • 语音识别1%

来源:IDC中国智能对话市场调研,2019(n=100)

如何使用智能对话?

智能对话技术的主要使用者包括行业用户和应用开发类服务商4两大类。不同类型的组织使用智 能对话的需求千差万别,采用智能对话的优先级和策略也有所不同,通常需要定制化的部署和实 施。但综合来看,一个有效的实施框架包括确立实施战略、选择应用场景、落地技术方案以及寻找 合作伙伴等四个关键环节(图22)。

图 22 智能对话项目实施框架

来源:IDC、百度UNIT,2019

3.1 确立实施战略

树立愿景与目标:树立愿景与目标是任何组织成功实施任何数字化转型行动的首要动作,智能对话的应用也不例外。愿景描述了组织成功实施智能对话的应有图景;目标设立了组织使用智能对话的总任务和总要求。其中,目标又可划分为长期目标和短期目标,长期目标是愿景的组成要素,短期目标则是实现愿景途中的里程碑。愿景与目标共同指明了行动期内的发展方向,是成功实施智能对话行动的总体指导和根本前提。

识别利益相关者:利益相关者是组织内外部环境受组织决策和行动影响的相关人员。对于智能对话行动来说,组织的利益相关者不仅仅局限于CIO、数据科学家等技术人员,还包括对组织发展负全面责任的CEO,以及对相关业务线负责的业务部门CXO。表1对企业采取智能对话行动的利益相关者做了总结,在项目实施过程中,需要所有利益相关者达成统一目标、统一认知、统一行动。

4 还可进一步划分为解决方案商和独立软件供应商(Independent Software Vendor, ISV),这类厂商通常基于平台开发面向行业用户的应用,是人工智能产业链的关键环节之一。

表 1 企业智能对话行动利益相

来源:IDC,2019

确定组织架构:智能对话是数字化转型的创新加速器,其部署和应用需要有相应的数字化转型组织架构予以匹配。 根据数字化成熟度的不同,IDC梳理出四种不同类型的数字化转型组织架构(图23)。

图 23 数字化转型组织架构示意图

来源:百度UNIT,2019

数字化转型特别项目组:常见于刚刚开始数字化之旅的组织,数字化转型特别项目组通常是一个虚拟化的组织,但向领导层直接汇报。在短期内,特别项目的目标是定义组织的数字化任务。从长期来看,其目标是创建新的商业模式,开发新的数字收入来源。

数字化转型办公室:对于数字化已有一定成效,准备将其数字化战略转移到下一阶段的组织,采用数字化转型办公室的组织架构较为适宜。数字化转型办公室也向领导层汇报,但已经形成实体化的组织,充当数字化业务用例的中枢,负责确定数字项目的战略优先级。

嵌入式数字业务组:常见于致力于加速数字化工作的组织,此模式将数字资源嵌入正在进行数字转换的各种业务线中,其角色是加速推进覆盖组织全范围的数字化转型。

数字化业务单元:常见于数字化转型已处于优化创新阶段的组织。数字化业务单元通常独立于组织的其他业务,有较高的决策权和执行能力,其角色是优化创新,创造颠覆性的产品服务及商业模式。

可以看出,这四种组织架构与组织数字化的成熟度息息相关,适用于不同成熟度组织进行数字化转型与创新,可以支撑任何数字化新兴技术行动的落地实施,智能对话也不例外。组织可以根据自身情况,选择适当的组织架构,从而更好地将责任落实到人,推动智能对话行动的落地。

3.2 选择应用场景

智能对话技术应用是一个相对复杂的过程,其复杂性主要体现在差异化的行业特征上。不同行业特征的组织所具备的数字化能力和经验也千差万别。正确评估应用就绪度、寻找合适的应用场景是组织着手采用智能对话时所面临的实际问题。IDC认为,从业务出发、以场景化应用为先导应是组织数字化转型的基本原则。组织需要找到优先级最高的切入点,同时设立合理的指标评估绩效,推动创新行动由点到面的扩张。

遵循这一原则,IDC建议组织优先选择业务需求迫切的场景,作为采用智能对话的突破口,并寻找适当的技术方案予以实现。通常来讲,合适的启动项目具备以下特征:

决策风险低:这类项目通常投入规模不会太大,看得到较为明确的投资回报,不需要对现有IT架构做较大改动即可接入使用,且通常安全可控,没有太多数据隐私和方案可控方面的担忧。

业务需求迫切:选择业务需求迫切的场景,可以调动所有利益相关者采用智能对话的积极性,从业务场景中获得的及时反馈也可以帮助对话系统快速迭代,达到更为理想的效果。

数据充分完备:目前的智能对话项目以面向垂直场景的任务型或问答型人机对话系统为主,要求组织至少具备在该场景下供人工智能系统学习训练的完备数据库。数据集可以来自于自身的数据沉淀,也可以来自外部的供应商或合作伙伴。

解决方案成熟:行业内已经有先行者在类似场景下进行了成功实践,且技术方案具备较高的可复制性,可迅速引入而无需太多的定制化开发。

3.3 落地技术方案

落地技术方案是连接理论与实践的关键环节,在这一步,企业的业务需求真正转化为实战方案。通常来讲,智能对话系统的落地包括设计、配置、优化三个主要阶段。其中,设计阶段主要包括对话系统定义和数据资源富集,配置阶段主要包括具体的知识资源标注和模型的训练,优化阶段主要包括系统上线之后的迭代优化过程。整体的流程如图24所示:

图 24 对话系统技术方案落地流程

来源:百度UNIT,2019

设计:定义对话系统

设计阶段的主要目的是帮助开发人员梳理业务中哪里需要通过和用户的对话来完成,再确认相关对话逻辑,最后从之前沉淀的数据中提取有价值信息,用于后续技能创建与训练。具体来说,设计可以通过以下四个步骤实现:

业务场景分析:从用户体验和用户需求入手,在大范围的可以做的业务中找到必须做和应该做的业务功能;明确功能目标,根据目标的有无以及是否需要参数化,确定功能类型是问答型、任务型还是闲聊型。

对话功能定义:在场景分析的基础上,确定各功能的优先级及对应技能的对话意图及其词槽。

对话逻辑梳理:任务型对话,需要将对话任务与意图间的映射关系进行清晰梳理,并整体考虑该场景下的的相似任务和相关任务,对关键信息要素重合的任务进行意图合并;问答型对话,仅需要对问题进行知识分类。

数据资源富集:包括富集词槽资源和对话样本资源,可通过从业务场景中提取数据、从对话日志中抽象相关数据以及官方数据库调用等方式获得。对于已有的对话模板和问答对可直接编辑或批量导入。获取足够的数据之后,还需进行数据清洗、数据标注和数据变形,以便后续配置模型。

配置:搭建对话系统

配置阶段的主要目的是创建和训练模型,赋予模型对话的能力。整个过程与学习的过程类似,先熟悉知识点,即模型的意图,然后通过大量的练习帮助模型理解、巩固和记忆,最终测试模型的效果。

首先需要定义模型,即确定对话流程及所需的意图和词槽。其次需要添加训练数据,这一环节主要由三部分组成,配置对话模板、标注对话样本及添加问答对,由此初步完成模型的构建。之后需要训练模型,可以选择快速训练或深度训练两种训练策略,或仅训练对话模板,或同时训练对话样本和对话模板;最后可以在测试窗口进行对话,观察对话效果是否符合预期。

优化:对话系统评估迭代

在实际应用中,由于业务程度复杂、用户画像变化等因素,已配置模型所掌握的知识可能不足以应对新的情况,需要通过更多的练习与测试来帮助模型提高自身能力。目前,对话模型通常无法完全自主学习并提高自身能力,因此需要训练人员评估对话效果并合理使用知识闭环推动效果优化(图25)。

图 25 使用知识闭环推动人机对话效果优化

来源:百度UNIT,2019

对话效果评估的方法主要包括线上运行效果跟踪和策略迭代评估。线上运行效果跟踪需要定期随机抽取业务日志,人工完成意图准确率/召回率的评估,并针对重点关注情况5 采取应对措施。

策略迭代评估是指选择新的策略迭代后,在形成新的模型替代原有模型的情况下,进行绝对效果评估和对比评估。绝对评估主要依赖于准确率/召回率的结果,对比评估需要评估两个对话系统对于同一用户日志的解析结果,同时考虑用户体验的波动。

针对评估结果,开发人员可借助反馈学习机制,通过知识提炼、问题深度分析、服务反馈等步骤进行系统效果的持续优化。

整体来看,设计、配置、优化是落地智能对话技术方案的通用流程,但在实践中,不同业务属性的场景需要不同的技术能力支持;此时一套完整的场景解决方案则显得尤为重要。下面,我们以三个典型的业务场景为例,介绍有较强针对性的场景解决方案。

5 包括意图解析失败/错误、词槽缺失,词槽解析错误和存在新需求不能满足等情况。

专栏一 场景解决方案:智能客服

百度针对智能客服场景提供了一套完整的解决方案,为了满足客服领域的业务需求,提供了完善高效的对话技能、对话流与知识建设能力,并开放了面向呼叫中心的专属语音解决方案,支持自训练优化,更好地服务开发者;为了构建一个完整高效的集成方案,提供了完善标准化的呼叫平台对接协议支持,搭建了语音语义一体化框架,一次调用即可高效整合语音及对话能力,并针对打断、沉默等可能出现的各种情况给出了完善的系统对接异常处理组件。

客服智能对话场景方案

来源:百度UNIT,2019

在系统部署环节,方案全方位支持公有云、混合云、私有云等多种部署模式,其中私有化部署支持效果快速生效,无需云端重新训练,并通过各种服务提供了便捷的维护性,降低了智能客服领域的落地门槛。

客服场景定制化部署方案

来源:百度UNIT,2019

专栏二 场景解决方案:消费电子

百度针对消费电子场景提供了一套完整的解决方案,不仅整合了全网的优质知识资源,还有大量优质技能低成本地提供给开发者使用,并能根据业务便捷方便的调整效果;在语音ASR方面,通过自训练优化能力进一步提升了业务技能搭建效率;与此同时开源了可以根据场景需求灵活调整的技能与知识管理框架,使整套方案具备了灵活强大的场景化集成能力。

消费电子智能对话场景方案

来源:百度UNIT,2019

在系统部署环节,从服务端到设备端给出了多样化的解决方案,采用了云端+本地化部署的灵活组合形式,适应多样化的业务环境;同时客户端具备一键接入DuerOS、小程序的能力,以及完善的Android、iOSSDK;开源的技能与知识管理框架还能根据开发者的需求灵活部署于服务端和客户端;在安全层面,通过对虚拟私有云的部署支持,最大化保障了服务稳定性与用户隐私。

消费电子场景定制化部署方案

来源:百度UNIT,2019

专栏三 场景解决方案:智能出行

百度针对智能出行场景提供了一套完整的解决方案,为了保证复杂声音环境下的AI效果,提供了车载专属语音解决方案;并通过车厂专属语义定制平台最大化地满足该场景的个性化需求;针对车载场景下网络状态不稳定的问题,利用嵌入式预置对话技能和离在线融合的AI技术方案给予强力支持。

出行智能对话场景方案

来源:百度UNIT,2019

在系统部署环节,百度提供的AI能力标准化集成,可适用于多种设备、车机等不同硬件集成方案。

出行场景定制化部署方案

来源:百度UNIT,2019

3.4 寻找合作伙伴

在外部环境快速变化、竞争态势愈发激烈的市场中,“合作共赢、强强联合”逐渐成为发展共识。随着用户需求的多样性提升,技术与应用越来越复杂,加速合作、促进产业链协同联动也变得越来越重要。作为智能对话的主要使用者,无论是行业用户还是应用开发类服务商,都应该构建更广泛的合作伙伴网络,探索合作创新的模式,以充分把握智能对话带来的机遇获得新价值。现在我们以百度大脑为例,介绍一下如何寻找合作伙伴。

对于行业用户来说,人机对话的需求实现方式包括企业自研、合作开发、完全托管三种,下表对这三种方式的特点做了总结。

表 2 人机对话需求实现方式及特点

来源:百度UNIT、IDC,2019

关于百度大脑智能对话训练平台
(UNderstanding and Interaction Technology, UNIT)

近年来,越来越多的企业服务与用户产品开始使用对话式人机交互技术并获得了工作人效和用户体验的提升。然而智能对话系统的研发是一个高技术高知识门槛的复杂任务。为此,百度推出了百度大脑智能对话训练平台UNIT,开放业界领先的对话技术和对应资源、整合了语音和知识建设能力;同时,提供了配套的对话系统搭建和培训体系,大幅降低企业和开发者搭建对话系统的研发门槛。

UNIT平台对话系统搭建全流程技术与服务

UNIT充分整合百度先进的人工智能技术,面向智能对话真实业务场景需求,致力于打造帮助企业和开发者快速、低成本的定制专业、可控、稳定的对话系统。UNIT平台技术特色:

快速启动:平台提供丰富的从真实业务积累的高质量预置技能、从全网沉淀的优质信息资源,可一键获取直接使用;具备灵活的组合语义推导理解技术与领先的语义匹配技术,支持少量模板和标注样本下迅速定制原型系统。

持续提升:基于百度的大数据,采用领先的语义表示与深度学习模型,再配套训练数据生产与标注工具DataKit,帮助系统低成本、可持续、稳定的提升对话效果。

深度定制:平台推出可编程的复杂对话流程管理工具Taskflow、开源对话管理模块DMkit、开源对话中控模块USkit,支持对话系统深度定制。

与百度大脑致力于降低AI开发门槛,提供简单易用的技术能力,全面赋能各行各业的理念一脉相承,UNIT还结合了真实业务场景应用中的技术沉淀,打造了多套面向智能客服、智能办公、智能家电、机器人、智能出行、智能穿戴等的对话场景方案,助力产业对话技术升级。

从表2可以看出,无论是企业自研、合作开发还是完全托管,行业用户都需要来自平台技术供应商或应用开发类服务商的支持,而选择合作伙伴的标准包括效果的准确度、实施和整合的难度、系统负载能力和稳定性等(图26)。

图 26 行业用户选择智能对话的主要考虑因素

来源:IDC,2019

寻找合作伙伴的几种方法:

1与平台型技术供应商联合创新:智能对话处于初期发展阶段,更多的技术能力还未体现,相应的应用场景也在探索之中。行业用户和应用服务商都应该积极和平台型技术供应商加强联系,了解技术发展趋势,挖掘潜在应用场景。

2在现有AI市场寻找合作伙伴:智能对话生态相对复杂,且通常涉及到众多设备、算法、数据源的选择,企业应将目光投向现有的A I市场和交易撮合平台,以减少时间和精力的耗费。

3参与A I人才培训认证:智能对话整体面临人才短缺问题,特别是缺乏担任项目落地总指挥角色的解决方案架构师和执行一线实施的智能对话训练师,企业可以组织产品经理、工程师等人员参与相关培训认证,以提升企业的A I开发能力。

百度大脑生态伙伴体系,全新推出智能对话服务能力认证

百度UNIT计划在2019年通过培训+认证的模式,对于项目落地中的核心角色智能对话训练师和智能对话解决方案架构师进行深度培训,提升企业人才能力。同时,将面向合作伙伴开展智能对话服务能力认证计划,以促进智能对话在企业内的应用更有保障的落地。

认证后的合作伙伴,可获得:

认证标识:在百度AI市场上有特殊的认证标识

优先展示:认证合作伙伴的商品优先展示

商机拓展:优选认证伙伴为客户共同提供服务

深度技术支持

了解培训认证模式的更多详情,请访问https://ai.baidu.com/unit/v2/static/actual

智能对话未来展望

4.1 技术展望

4.1.1 专业型智能对话系统持续演进

如前所述,当前的智能对话技术仍然存在三个方面的问题,一是对话系统的效果仍严重依赖于标注数据的质量和规模;二是从语音到语义再到决策的信息处理流程仍较为冗长;第三是世界知识和领域知识仍难以有效利用。智能对话技术的发展趋势,可以围绕上述问题展开分析。

针对标注数据依赖的问题,研究者已经开始在如下几个方面展开研究,包括用于在不同的场景、任务、领域之间进行知识迁移的领域适应技术;借助非直接/弱相关监督信号进行模型训练的远监督/弱监督学习技术;通过设计对话目标评价机制进行目标驱动的模型学习的强化学习技术;借助语义度量机制和附加语义信息利用少数样本甚至无需样本进行学习的零/单/少样本学习技术;通过智能体之间自动交互进行学习的协同学习技术;能够利用业务流程所产生反馈数据的自学习机制等。以上策略能够帮助开发者基于少量的标注数据就可以实现较好的对话效果,值得进行更广泛深入的研究。

针对信息流程冗长的问题,深度学习的端到端建模技术已经带来了实质性的进展。在对话处理流程的语言处理、对话理解、决策控制和语言生成环节,端到端模型能够打通其中若干个环节,通过降低错误传播率以提升最终的对话效果。受标注数据和模型能力的制约,当前尚且没有能够打通包括语音和语义在内的整个对话流程。语音信号中包含的情感、声调和停顿等信息,对对话过程中的理解和决策都有非常重要的指示作用。实现语音语义的一体化建模,打通语音处理和文本处理之间的信息流动隔阂,能够减少两个环节之间的错误传播。在保证各个环节的干预和定制能力的基础上,通过语音语义联合建模贯通人机对话全流程,有望构建更好的人机对话系统。

知识是实现智能通用对话系统的重要基础。语言理解和对话决策等重要环节均离不开对语言知识、世界知识和领域知识的有效利用。当前的人机对话技术运用知识的能力,基本上停留在把知识库作为答案信息来源的层面,未能充分发挥知识在对话流程各个环节的作用。研究面向人机对话的更好的知识表示与计算机制,探索将语言知识、世界知识和领域知识有效用于人机对话各个环节的方法,构建知识增强和知识驱动的人机对话模型,是实现人机对话效果本质突破的重要路径,值得研究者在这个方向上持续投入。

以上技术研究方向的发展将会为智能对话系统带来飞跃式的提升,随着标注数据依赖问题、信息流程冗长问题、知识难以有效利用问题的逐步突破,我们预计,任务型、问答型和闲聊型等面向专业化场景的智能对话系统将会快速演进,达到更加完善的实用化水平。

4.1.2 通用型人机对话系统初现端倪

智能对话技术的终极目标,是实现覆盖多种场景多种用途的智能通用人机对话。与面向特定场景的对话系统不同,智能通用人机对话系统面临着几方面的重大挑战:第一,没有明确的对话目标和评估指标用以指导机器学习过程;第二,没有充分的对话控制逻辑和决策机制用以引导多轮对话流程;第三,对话语料的信息含量和标注数量都难以做到很大的规模;第四,通用对话所必需的世界知识和语言知识等知识库难以有效的融合利用。受限于以上种种原因,目前学术界和工业界并没有在通用的人机对话技术上取得显著进展。

百度基于自身全面深厚的人工智能理论和技术储备,结合来自各种业务场景的实践经验展开探索,提出了知识驱动的主动多轮对话模型,旨在建立能够掌握运用知识、对外表现人格一致并且主动引导多轮对话的智能通用人机对话系统。为实现该目标,百度围绕上述智能通用人机对话面临的难题展开了多个维度的探索,包括建立有明确的背景知识、对话目标和主动多轮对话控制逻辑的以知识为核心的主动多轮对话系统,探索知识和对话数据闭环建设机制,探索对话评估和对话控制相结合的学习机制,探索有“个性化”的和支持情感聊天的对话建模方式,以及探索面向主动多轮对话的长期记忆的建设机制。

目前,百度针对智能通用对话技术的探索取得了初步进展。从兼顾合理性和个性的角度出发,百度提出了一种个性化程度可感知的自调节解码单元用于对话生成。该解码单元包括两个并行子单元以及整合机制,其中两个子单元分别负责合理性与个性的建模,整合机制负责整合子单元输出以更新解码单元的输出状态。实验验证,在真实的大规模对话数据上,该模型的效果在自动指标和人工指标下均超越了基于端到端神经网络的基线模型。

4.2 应用展望

4.2.1 横向拓展——生态演进促进规模化应用

智能对话产业生态正处于由各自为政向通力合作过渡的阶段。在新阶段,平台型软件供应商将大幅整合市场资源, 构建可以最大限度发挥价值的生态系统。所有的产业生态参与者,包括硬件供应商、开源技术平台、平台型软件供 应商、应用开发类服务商、系统集成商、终端用户等将紧密合作乃至无缝衔接,共同推动智能对话在B端和C端的加 速落地。

智能对话将与各行业融合创新,大幅推进规模化应用。IDC于2019年2月发布的《全球半年度人工智能市场支出指 南》显示,未来三年中国人工智能市场支出的复合增长率为25.9%,电信、医疗、制造、金融、交通、教育、零售、媒体 等行业的复合增长率在25%以上。

随着智能对话技术的发展,未来语音交互也将渗透到更多的智能终端设备,在消费者中的渗透率也会随之提高。根据IDC《2018年第三季度中国智能家居设备季度追踪报告》,2018年智能家居设备配备语音助手比例为28%,预计到2019年将有更多的智能家居产品类型,例如智能插座、智能摄像头、智能空调、智能冰箱等将采用智能对话技术,这一比例将提高至39%。

图 27 2018-2019年智能家居设备语音助手配备率

来源:IDC,2019

4.2.2 纵向深入——人工智能与物联网融合带来人机交互全面智能化

人工智能与物联网的融合是未来的重要发展趋势,也是实现人机交互全面智能化的必由之路。IDC认为,随着人工智能和物联网的融合,智能对话系统的感知能力、认知能力、决策能力和实施能力将全面提升,使系统向全面智能化发展,实现全场景连接、多模态交互、个性化体验。

图 28 人工智能+物联网的全面智能化

来源:IDC,2019

全场景连接:随着智能对话的发展,未来语音交互平台会渗透到更多智能终端设备,市场接受度也会随之提高。未来将有更多互联平台接入同一个语音平台,用户能够通过语音交互控制不同互联平台下的智能设备,并根据自身需求创建不同的场景,实现设备之间的联动,从而加强不同平台下各个终端设备的互联互通能力,真正实现设备的智能一体化管理和用户的全场景连接。

图 29 以人为中心的全场景连接

来源:IDC,2019

多模态交互:智能对话与物联网的结合将更为紧密。越来越多的物联网设备通过嵌入式模组、计算单元、感知单元等将物理世界数字化,获取丰富的数据,大大提升智能对话的感知能力。人机交互方式将逐渐摆脱单一的语音交互,向语音和视觉相结合,乃至包括语音、手势、眼神、触控的等多种方式融合的多模态交互转变。

图 30 多模态交互

来源:IDC,2019

个性化体验:用户可以用最自然的方式对机器进行多维、非精确信息的输入,计算机可以在接收到多个维度的输入后对信息进行整合,并对人和环境进行精确的理解,对用户输出立体化的反馈,并根据用户行为进行最优决策且自主实施,以实现最自然、最符合需求的个性化用户体验。

图 31 个性化用户体验

来源:IDC,2019

结语

语言是人际沟通的工具,也是文化传承的载体。人类获取知识、传递思想,都需要借助语言的力量。智能人机对话技术的出现,大大增强了人类利用语言感知、认知世界的能力。未来,智能人机对话技术必将深入发展,从感知、认知,到决策、实施,全方位提升人类认识和改造世界的能力,创造更美好的智能化时代。充分理解智能对话技术、有效利用智能对话引擎,是每个组织提升自身效能,赢得未来时代新竞赛的关键抓手。

写评论评论反馈

  • 安徽.芜湖.南陵新华书店好记星何姐

    2019-05-17 05:50:57

    科学太发大了

  • 2019-05-17 05:49:10

    科学的发展趋势强强

  • 2019-05-16 11:05:28

    特别棒

  • 2019-05-16 10:47:18

    真是先进,科技太发达了

  • 2019-05-16 09:31:40

    科技的进步,标明着我们祖国的强大!也感谢科技人员的努力

  • 2019-05-15 22:16:40

    真不错,想认识一下作者

  • 2019-05-15 11:27:03

    对我们应用有指导意义,很好

关于百度AI产业研究中心

百度AI产业研究中心是促进AI技术与产业深度结合的智库。中心将以开放、合作的态度,与产业、学术、研究机构携手,加深对产业的理解。探索发掘在AI技术驱动下,各产业呈现出的新应用、新模式、新业态、新价值。中心通过发布一系列行业研究报告、产业发展白皮书、AI产业指数等,推动人工智能与产业深度结合,致力成为产业转型升级的“智囊”。欲了解更多信息,请访问 http://ai.baidu.com

关于IDC

国际数据公司(IDC)是全球著名的信息技术、电信行业和消费科技咨询、顾问和活动服务专业提供商。成立于1964年,IDC在全球拥有超过1100名分析师,为110多个国家的技术和行业发展机遇提供全球化、区域化和本地化的专业视角及服务。IDC的分析和洞察助力IT专业人士、业务主管和投资机构制定基于事实的技术决策,以实现关键业务目标。IDC于1982年正式在中国设立分支机构,是最早进入中国市场的全球著名的科技市场研究机构。在中国,IDC分析师专注于本地ICT市场研究,与本地市场结合度非常高,研究领域覆盖硬件、软件、服务、互联网、各类新兴技术以及企业数字化转型等方面。欲了解更多信息,请登录 www.idc.com.cn

IDC China
IDC中国(北京):中国北京市东城区北三环东
路36号环球贸易中心E座901室
邮编:100013
+86.10.5889.1666
Twitter:@IDC
idc-community.com
www.idc.com