作者：黄非、孙健、李永彬、张佶、戴音培、余海洋、耿瑞莹、高星、严明

一、人机对话概况

提起人机对话这个词，你可能会感到困惑，但说起人机对话技术的应用和体验，你绝对不会陌生。比如以Siri为代表的手机语音助手、智能音箱、车载对话机器人等类似的消费级硬件对话交互，这种以语音为基础的对话形式使人机交互更加方便快捷；另一类场景是服务场景的对话机器人，比如用户在周末/晚上时间给客服打电话时，首先接听用户电话的大概率是一个对话机器人，该类机器人主要应用在客服、泛交互等服务场景。

简单来讲，人机对话就是指让机器能够理解人类的自然语言并能够与人进行相应对话交互的智能系统。从人工智能研究初期开始，人们就致力于开发高度智能化的人机对话系统。通常意义上的人机对话在技术框架上主要包括5个子系统，如下图所示：

根据人机对话所讨论的领域开放程度，可以分为开放域的人机对话和垂直领域的人机对话；根据人机对话有无明确目标可以分为聊天（无特定目标）和有目标导向的对话（goal-oriented dialog）；根据功能不同一般分为任务型对话、智能问答和聊天三种类型；参照艾瑞咨询的界定，从产品维度我们将对话交互产品分为消费级硬件交互产品与对话式AI产品两种类型。

在国内的市场规模上，消费级硬件交互AI语音助手算法产值2021年为34亿元左右；对话式AI的2021年市场规模为45亿元，带动规模126亿元，总体而言，消费级硬件交互产品与对话式AI产品处于较高速的增长阶段。为什么人机对话在过去这几年取得了较显著的进展呢？笔者认为有以下几个方面的原因：首先，来自于C端消费者对随时随地快捷方便的获取信息和服务的刚性需求；其次，来自于B端企业的人力成本压力和以客户为中心的服务理念，推动企业来打造更智能化且高效的客户连接与交互的服务手段，即以客服机器人为核心的客户联络中心整体解决方案；第三，以预训练大模型+fine-tuning的新一代技术范式让人机对话机器人的泛化能力有了显著提升，场景之间的可扩展性得到加强，打造机器人的成本在降低。

依托于达摩院自然语言处理、语音交互等能力，我们在FAQ知识检索问答、任务流程式问答、知识图谱复杂推理问答、表格检索问答、MRC文档理解问答等方面积累了一些经验，在对话交互能力、全链路运营工具、智能辅助及洞察分析等角度持续创新升级。本文将通过几个章节带大家一起了解：

对话式AI产品背后面临的关键技术挑战
达摩院新一代人机对话技术平台
智能客服的典型应用场景和客户
人机对话未来发展方向、发展路径的思考

二、对话式AI面临的关键技术挑战

让机器理解人类语言并和人自由对话，至少面临以下几个方面的关键挑战：

知识构建的成本高：要让机器听懂并理解人所说的话，那前提是机器要像人一样预先具备大量的知识，这些知识也需要是结构化的。这里的结构化知识主要包括两类：以特定目标为中心的对话流程知识和知识图谱。要构建围绕给定场景的较完备的对话逻辑流程（动态知识）预计需要花费1～2周的人力，构建给定场景的schema和知识图谱（静态知识）预计需要2周左右的人力，因此知识构建的成本是非常高的；

机器人从启动到符合上线标准的优化周期长：机器人从启动到符合上线标准需要进行多批次的优化打磨，每一批次都涉及都需要收集真实情况下的对话数据、标注数据、训练模型、调试模型、测试对话效果、分析问题背后的原因，然后再进行下一轮次的优化，前后预计需要2～3周；类似的，知识图谱问答效果迭代优化也需要2周；

机器人从成熟场景迁移到小样本新场景的对话体验差：对话机器人在成熟场景下由于有较多的真实对话数据可供加工和利用，对话体验是可以不断优化的。但迁移到小样本和新场景后的对话体验效果就有非常明显的下降。

人类语言的语系、语种、方言非常多样，大量小语种数据匮乏；在东南亚/南亚等多语言社会中，混合语言现象非常普遍；有些语言存在不同的书写方式，且不同书写方式之间的转写并不规范；机器人在跨越语言障碍、深入本地文化、支持地道的本地语言方面存在很多挑战。

人类感知世界的方式是多模态的，会涉及图像、文本、语音、视频等多种不同模态的信息，机器人需要能同时理解不同模态的多维度信息，而不同模态的信息如何进行高效精准的语义表征，针对跨模态语义鸿沟问题如何更好地做跨模态信息对齐，以及如何基于对齐的多模态信息做深度模态融合等存在一系列挑战。

针对以上关键挑战，达摩院智能对话与服务团队过去这一年主要从如下层面来展开：

从知识层面，重点打造结构化知识的半自动构建能力，降低知识构建的成本；并进一步拓展到图文、视频等多模态知识的充分利用；

从对话模型层面，重点打造融入知识的预训练对话模型，从而缩短机器人从启动到符合上线标准的优化周期；并进一步从单模态拓展到多模态，从单语言拓展到多语言的预训练模型能力；

从对话引擎层面，重点拓展和增强对话引擎的核心能力，包括多能力对话引擎、多语言的问答、多模态问答、小样本学习技术等。

三、达摩院新一代人机对话技术体系

基于上述思路，我们设计了新一代人机对话技术体系，其核心主要是三层：知识层、预训练对话问答模型层、引擎层。其中预训练对话问答模型层包括预训练对话模型、预训练图谱问答模型（KGBert）、预训练表格问答模型（TableBert）；引擎层包括Dialog Studio多轮对话引擎、KBQA图谱问答引擎、TableQA表格问答引擎、FAQ多语言问答引擎、VQA视觉问答引擎。

3.1 知识层：可扩展性的知识图谱构建

知识来源于数据，数据来源主要分为两类，一类是人人对话日志，另一类是企业文档。相对应的，知识构建也分两个方面，一是基于人人对话日志的对话流的构建，从传统的手工配置升级为自动挖掘意图，从人工标注变成自动的挖掘和半自动标注、对话流程半自动的构建。从人工构建到半自动构建，大幅降低流程型知识的构建成本。二是基于文档的知识图谱构建。文档本身就具备一定的结构化信息，做了结构化后可以让问答更加精准。从多轮对话交互的视角来看，结构化使得对话交互更加流畅。

围绕基于文档的知识图谱构建，我们设计了一套拥有可扩展性的知识图谱构建方案，该方案主要包括文档预训练模型(DocBert)、企业文档的标注平台、信息抽取这三层（见下图）。其中，信息抽取又细分为文档结构识别、粗粒度三元组抽取、细粒度三元组抽取三个步骤。

? 3.1.1 DocBert

我们设计了针对半结构化长文档的预训练文档模型DocBert，其主要设计思路是将文档表示分为物理结构、逻辑结构和语义结构三个层次，使用百万级的无标文档数据，基于其文本语义、版面信息、视觉特征来构建自监督学习任务，使得模型能够更好地理解文档语义和结构信息。具体的预训练任务如下：

1）Layout-Aware MLM：通过语义、物理联合建模任务Layout-Aware MLM，在Mask任务中，考虑文本的位置、字体大小等信息，实现了文档布局感知的语义理解任务；

2）Text-Image Alignmet：对于文本和图像的对齐，我们采取了和LayoutLM相同的方法，即通过对文档图像里文字的Mask进行重建，帮助模型学习到文本、版面、图像不同模态间的对齐关系；

3）Title Permutation：以自监督的方式来构建章节标题重建任务，增强模型对文档层次目录结构的理解能力；

4）Sparse Transformer Layers：使用基于Sparse-Attention的Transformer层，替换传统的Transformer，增强模型对于长文档的处理能力。如下图所示：

? 3.1.2 粗粒度三元组抽取

基于文档的粗粒度三元组抽取，本质上是输入整篇文档的物理组件的有序序列，然后将其物理组件如标题、正文识别出来，再根据这些信息生成文档树，最终根据一些简单的规则即可得到文档的所有粗粒度三元组，其核心是文档树的生成，整体流程如下图所示：

基于文档逻辑结构抽取的文档树生成面临两个重要挑战，分别是长文档和深度可变的层级结构。一方面，长文档指的是文档可能包含数百页，数千个物理组件，计算量很大；另一方面，深度可变的层级结构指在不同文档中，树的深度不一样，有的只有3层，有的可能有数10层。基于此，我们提出了文档结构抽取三阶段的框架：

第一步，首先检测物理组件序列中的标题，我们首先提取物理组件序列的文本和格式等信息，用DocBert对其提取特征，然后对每一个标题做二分类，类别是标题还是其他组件。由于这个步骤相对简单，所以用序列标注的模型可以获得较高的准确率；

第二步，对于提取出来的标题序列，我们生成标题层级结构树。具体地，以一个空树为初始状态，依次取序列中的一个标题插入到树中，当前标题可能的插入位置是树的最右分支中节点的子节点；

最后一步，当标题层级树生成结束后，根据其他组件在序列中的位置，就能插入到树对应的节点中。

我们将DocBert应用在下游的粗粒度三元组抽取业务中，在政务、保险、银行、电力多个行业的测试集上，三元组抽取普遍优于传统的预训练模型3%~7%，特别是在小样本数据集上取得了10%以上的提升；同时在我们自己构建的公开数据集LIE上，也超过了LayoutLMV2等最新的预训练模型，取得了很好的效果。

? 3.1.3 细粒度三元组抽取

在针对文本的细粒度三元组抽取中，我们设计了如下的细粒度信息抽取任务：

ClosedIE是在给定图谱Schema即实体和关系类型前提下，进行细粒度三元组知识抽取。从模型角度，我们研究了双线性三维tensor稀疏、Rotationary span length建模以及损失函数的Power Trick等技术，基于自建的政务、电力、医疗、常识等业务数据集实验表明，我们的模型效果相较基线Biaffine模型均有1-3个点的提升。详见基于半结构化知识的问答技术体系。

区别于经典的ClosedIE，OpenIE无需给定schema即可从文档中抽取三元组知识。当前SOTA的OpenIE模型MacroIE，将文本中的知识建模为以词为基本粒度的极大团结构，在中文SAOKE和英文OIE4数据集上均达到最好的效果。将知识建模为极大团在模型鲁棒性和泛化性上不佳，容易出现漏边或者错边的情况。因此我们放松极大团结构的限制而转为有向无环图结构的建模，提出了一个新模型DragonIE。此模型在处理重叠span、不连续span等复杂case有明显优势，大大降低了模型复杂性。在中文公开数据集SAOKE和英文公开数据集OIE4上, 我们自研的DragonIE相比当前的SOTA，标签数量减少80%，内存占用减少了50%，同时还有1个点的效果提升。

3.2 半监督预训练开启了向对话模型中融入知识的新范式

基于对话的特点，我们专门设计了一个预训练对话模型，预训练对话模型（Pre-trained Conversation Model, PCM）建模刻画的是，给定对话历史context来选择/生成一个最合适的response。它相比预训练语言模型任务更加特定化，需要综合考虑对话历史、对话目标、对话策略、对话角色、对话轮次等。

? 3.2.1 为什么要融入知识？

预训练的本质是将训练数据中蕴含的信息以模型可理解的方式隐含地存储到参数中，不少研究工作已经表明，预训练模型如BERT能够学习到大规模文本中的一部分语言学知识（句法、语法），甚至一定程度上的世界知识和常识知识。但是预训练模型在如何更好地学习利用人类经验知识上依旧存在很多问题。

这里，我们将人类经验知识粗略分为三类：第一类是事实型知识，例如人工构建的知识表格、知识图谱和结构化文档（包含篇章结构、图文信息）；第二类是数理逻辑知识，包括数理公式、公理定理、符号计算等，这一类知识不作为本文讨论内容；第三类是标注知识，即标注数据中蕴含的知识，这类知识十分普遍，属于任务相关的，例如文本分类、情感分析等。人类在标注过程中需要根据该特定的任务进行归纳总结，在预先定义的高层语义分类空间中对无标数据进行推断并赋值相应的标签。因此，利用人类经验知识来增强预训练模型应会对相关下游任务带来明显效果提升。

? 3.2.2 对话策略知识

对话策略是对话过程中的一个重要模块，一般用dialog act（DA）来进行刻画，即给定双方的对话历史，对话策略需要选择出正确的对话动作用于指导对话生成。当前各种常见预训练对话模型，如Meena、DialoGPT等往往都直接将对话动作的选择过程隐含建模到模型参数里，存在着不可解释和不可控等问题。由于策略是一种高层语义，难以仅仅利用自监督的方式就能很好地学习出来。因此，接下来我们将从对话策略建模出发，提出利用半监督的方式实现更好的预训练，将标注数据中的对话策略知识融入到预训练对话模型中来。下图给出了我们梳理并定义的dialog act体系：

? 3.2.3 将对话策略知识注入预训练中

我们设计了半监督预训练的方式来解决对话策略的建模难题，将对话动作预测任务改造成半监督学习任务，并设计出对话预训练模型SPACE 。该模型也是阿里巴巴深度语言模型体系的有机组成部分。

具体来看，SPACE采用了类似于encoder+decoder架构，预训练的目标既包含了传统的对对话理解和生成建模的自监督loss，也包含了对对话策略建模的半监督loss，完整框架见下图：

半监督对话预训练框架

首先，对于理解能力，我们采用了回复选择（response selection）作为预训练目标，即给定对话上下文（context）和候选回复（response）在 [CLS] 处进行二分类判断是否是正确的回复。在诸多PCM工作中都已经证明了回复选择的训练对于对话理解至关重要，因此我们保留该训练目标；对于生成能力，我们则使用了常见的回复生成（response generation）目标，即给定对话上下文生成正确回复语句；对于策略部分，我们采用了半监督学习中十分高效的一致性正则（consistency regularization）方法来建模对话动作。理论可以证明，在满足低密度假设下（即分类边界处于低密度分布），通过对同一个样本进行扰动后分类结果仍然具备一定程度上的一致性（即分布接近或预测结果接近），那么最终基于一致性正则的半监督学习可以保证找到正确的分类面。最终对于模型的预训练，我们将整个模型的理解、策略、生成目标加在一起进行优化。

? 3.2.4 半监督预训练带来显著效果提升

我们在三个国际对话数据集上（斯坦福的In-Car数据集、MultiWOZ2.0、MultiWOZ2.1数据集）进行了效果验证，如下图所示，经过半监督预训练融入策略知识后，可以看到我们的GALAXY模型在这些对话榜单上均大幅超过了之前的SOTA模型，端到端总体得分在In-Car、MultiWOZ2.0和MultiWOZ2.1分别提升2.5、5.3和5.5个点。

3.3 多模态预训练带来对话问答新体验

针对不同的视觉特征表示，考虑到各自特征的优缺点，我们研发了一系列自研的多模态预训练模型，在多个多模态公开任务上取得SOTA效果。

Region：在真实的图像-文本数据中，一部分图像-文本对很容易在两种模态上对齐语义，而另一部分图像-文本对需要进行更高级语义上的对齐。现有的基于Region特征两种预训练框架：
1）直接将特征级的图像表示和文本表示连接起来作为single-stream Transformer的输入，更适合简单的图文对；
2）使用two-stream Transformer可以将图像-文本表示在高级语义空间对齐。基于此，我们提出SemVLP多模态单双流融合模型，引入了一种新的跨模态融合机制soft cross-modal attention，它集成了hard cross-modal attention和partial cross-modal attention，可以从不同语义粒度对齐文本和图像。在多个视觉语言理解任务上进行了实验，实验表明基于单双流融合的SemVLP模型较传统的单流模型和双流模型均能取得一定程度的提升。

Grid：对于Region存在线上延时长的问题和如何更好的利用Grid特征的思考，我们探索了两种融合方式，
1）E2E-VLP：将End2End多模态预训练统一到Transformer框架，同时支持NLU/NLG任务；Pretraining阶段，增加VisualTasks (ObjectDetection,ImageCaption) 更好的融合图文语义，Finetuning阶段，可以摆脱耗时的检测模块，直接基于ResNet特征图进行端到端的训练，在多个多模态NLU/NLG任务取得两阶段方法相当的效果，同时提速3倍，详见E2E-VLP论文；
2）Grid-VLP：预训练的目标检测器的FasterCNN Encoder作为Visual Encoder，在Pretraining阶段，通过Random Grid Sampling机制提高模型的鲁棒性，在VQA、NLVR2和GQA等数据集上取得超越基于Region的多模态模型效果，详见Grid-VLP论文。其中E2E-VLP已被ACL2021接受。

E2E-VLP Grid-VLP

主要结论：Grid-based模型可以取得和Region-based的模型Comparable的效果，并支持端到端训练和预测，具有更快的Infer速度，比较适合于实际业务应用。

Patch & Fusion：ViT在视觉任务上取得了巨大的进展，最近也成为多模态的研究热点，我们尝试了基于预训练的目标检测器和图文对预训练的CLIP抽取Patch特征，以及正在探索类似VILT的图文底层融合的结果。此外，为了结合各类图文特征的优势，我们提出了Fusion-VLP，通过Learning to Attend自适应融合（Region，Grid，Patch）三类视觉特征和文本特征，在多模态视觉问答VQA取得同等预训练数据量下Single模型SOTA效果，详见相关论文。

主要结论：基于检测的预训练的Patch特征相对容易过拟合，更多无标注图文数据预训练的Patch特征能够取得更好的效果，但是容易破坏边界信息，暂时效果低于Region-based和Grid-based的方法，Patch-Based模型可以把图文统一到Transformer框架，是现在的研究热点；综合三类特征可以更有效的捕捉图片存在不同的粒度的语义信息，起到相辅相成的作用。

Learning to Attend：现有的多模态预训练框架大多采用单流和双流两种交互模式，在单流框架中图文之间的交互仍采用常规的self-attention机制。而从经验上来看，模型底层应该更偏向于图文各自表征的建模，而顶层更偏向于图文之间表征的建模，因此，我们提出基于Learning to Attend的新的多模态预训练框架，对每一层使用两个可学习的自注意力权重来动态控制模态间和模态内的交互，该框架可以自适应融合上面提到的的多类视觉特征（region，grid，patch）和文本特征。

在原始的transformer机制上，我们将self-attention计算注意力矩阵拆分为两部分：模态内注意力矩阵和模态间注意力矩阵。然后，我们分别为模态内注意力矩阵和模态间注意力矩阵引入了两个可学习的权重ε1和ε2。在每层transformer的self-attention计算中，我们将可学习权重与对应注意力矩阵相乘，以获得新的注意力权重矩阵，通过这种方式来使模型自适应地学习和调整模态内和模态间的注意力权重。

主要结论：基于Learning to Attend的图文融合框架，我们在多个特征下分别验证，无论Region，还是Fusion特征上，相比于原始transformer都取得了一定的提升，说明新框架可以一定程度自适应融合视觉特征和文本特征。

Structure：在多模态数据中，除了全是视觉元素图片外，还有一部分是图片中包含着富文本信息，而目前的多种视觉特征都无法表征图片中的OCR文本信息。针对这些挑战，我们提出了结构化预训练模型StructuralLM，在语言模型StructBERT的基础上，充分利用图片文档数据的2D位置信息，提出box共享坐标表示，并引入box位置预测的预训练任务，帮助模型感知图片不同位置之间词语的关系，相关方法在经典的表格理解数据集FUNSD和表格问答数据DocVQA较之前的SOTA方法提升近10个点，详见StructuralLM论文。该论文被ACL2021接收。

StructuralLM

主要结论：在多样性视觉表征模型的基础上，引入StructuralLM模型，在VQA测试集绝对提升1.2pt，证明了我们的模型可以很好的学习到图片中富文本信息及其空间位置表示。

目前各公开权威多模态任务的SOTA方法都基本是基于多模态预训练技术，利用海量的无标注多模态数据预训练模型，较未预训练的模型效果均有显著提升，我们的多模态预训练技术也不局限于VQA任务，也可广泛应用于多模态分类、搜索、生成等任务，曾在SemEval 2021多模态分类、DocVQA结构化等榜单取得第一名成绩。

3.4 引擎层：达摩院TableQA取得四大榜单第一并规模化应用

在引擎层面，达摩院人机对话平台主要包括针对流程型知识的对话引擎Dialog Studio、针对表格知识的TableQA问答引擎、针对知识图谱的图谱问答引擎。受篇幅所限，这里主要介绍TableQA问答引擎。

由于表格数据结构清晰、易于维护，并且对人类和机器理解都比较友好，表格/SQL数据库是各行各业应用最普遍的结构化知识存储形式。表格问答TableQA通过将自然语言直接转换为SQL查询语言，允许用户使用自然语言与表格知识直接交互，从而拓展了对话机器人的能力边界。我们围绕TableQA做了一系列探索，先后在四大数据集榜单上取得了第一名，并且开源了中文首个预训练表格模型，成为新一代人机对话技术体系中的核心引擎之一。

针对表格的表格问答TableQA引擎，最简单的情况是单表单轮问答，业界的工作也主要停留在单表单轮。团队在单表单轮问答基础上，主要开拓并打造了从单轮到多轮的问答和从单表到多表的问答能力。

? 3.4.1 从单轮到多轮

对于多轮的表格问答，其难点包括以下两个方面：

如何有效建模并利用多轮对话历史来理解用户的问题；

utterance和表格Schema之间的语义链接问题；

针对多轮场景下的语义链接问题，我们在AAAI 2021提出了一种基于动态上下文模式图的框架 R2SQL (Hybrid Relation Network for Cross-Domain Context-Dependent Text-to-SQL Parsing)，有效刻画了多轮场景下的自然语言和表格Schema之间复杂的语义链接关系。

该框架包括以下两个模块：1.融合关系图，2.动态记忆遗忘机制。如下图所示，我们的融合关系图既包含基于注意力机制获取到的隐式关系，也包含基于语义链接得到的显式关系，从而最大限度发挥模型和先验规则在处理多轮语义理解的优势。而且随着多轮问答的进行，我们发现用户的话题会随着轮次发生变化，因此我们进一步提出了动态记忆遗忘机制更新每个关系的权重，从而得到适应于多轮问答场景的动态上下文模式图。

我们在业界权威多轮表格问答数据集SParC和CoSQL进行实验，在SParC数据集相比之前最好效果EditSQL,Turn粒度的准确率提升7.9%（47.9%->55.8%），在CoSQL数据集效果提升6.0%（40.8%->46.8%）。该工作发表在AAAI 2021。

? 3.4.2 从单表到多表的问答

真实世界的场景往往包含多个表格，这将涉及到多个表格的联合查询，而且给SQL语句的解析带来两类复杂性：1.更多的SQL关键字比如JOIN，UNION等高级关键字；2.SQL互相嵌套的情况。

相比单表单轮，多表单轮的任务主要存在以下难点：

SQL层面：针对复杂的SQL语句，如何设计有语法约束的解码器；

表格层面：如何利用数据库内多个表格之间的关联关系；

Schema之间的语义链接关系在多表场景下更加复杂。

之前的工作有些关注于Schema内部的建模，将Schema中的表、列、外键信息转换为图的形式，融入网络进行学习，另一些工作主要关注于多表任务中的语义链接关系的建模。而我们首先关注到了自然语言问题的句法结构对text-to-SQL任务的重要性。为此，我们利用句法关系建模了自然语言问题内部的关系，在句法距离的度量下，id和date的关系将被拉近，从而将生成正确的SQL。基于这个动机，我们提出了 S2SQL（Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers），将自然语言内部的句法结构，Schema内部的结构以及自然语言与Schema之间的语义交互结构同时建模，得到一个完备的Question-Schema 语义交互图，实现更强的表征能力。

效果上， S2SQL 在Spider数据集均取得了最好的结果，相比之前最好的结果（微软的RAT-SQL）提升2.8个百分点（64.3->67.1）。R2SQL模型分别在2020年7月、2020年8月登顶榜单第一。

SDSQL和S2SQL模型分别于2021年3月、2021年9月在WikiSQL榜单和Spider榜单上取得了第一名的成绩。

3.5 FAQ问答

基本上每个客户都需要支持FAQ问答，所以FAQ问答引擎是应用最为广泛的一个引擎。围绕着「提升业务定制效率、提升问答体验、降低FAQ运营和部署成本」，我们在问答模型库和代码框架、对话预训练和小样本理解、多轮理解和澄清引导、口语化长句理解、基于多源异构内容生成FAQ、模型蒸馏和高性能部署等方面展开了很多探索和实践。这里重点介绍下我们在小样本分类在FAQ问答中的应用。

基于MetaLearning的小样本分类，相比传统意图分类，没见过的类别只提供少量样本就能自动泛化识别；相比句子对匹配，能对FAQ知识更完整建模，解决单条知识标题歧义问题。绝大多数已有模型都是基于经典原型网络设计，属于表征型匹配，我们提出了MGIMN（Multi-grained Interactive Matching Network）基于交互型匹配设计模型，先计算Instance-wise的匹配特征向量，然后聚合得到每个Class的匹配特征向量，最后得到每个Class的匹配置信度；句子间进行多粒度的交互匹配，能从全局视角、类别视角、句子对视角、单句视角，匹配时增强对区分度高词汇的关注。

在真实应用场景落地的过程中，我们发现仅仅依靠预训练语言模型和目标任务的少量数据进行训练，并不能满足我们的上线效果要求。这种小样本分类技术在行业内，接受度和知名度不如句子对匹配技术，主要原因是训练数据集需要包含大量的类别，否则会比较容易meta-overfitting，公开数据集不足以支撑这项技术快速发展。但好在我们经过多年的积累，平台已沉淀了上百万的意图类别和上千万的知识标题，基于此我们改进meta-task采样策略（概率采样、动态NK采样、困难样本采样、多领域/语种采样），并通过推断加速，在多类实际应用场景中取得了显著的提升。比如小样本分类模型在不使用任何云小蜜数据的情况下， FAQ问答开箱效果超过了句子对匹配模型的SOTA（目标领域有上百万匹配标注数据）。

3.6 多语言问答

全球化是阿里巴巴三大战略之一，随着国际业务的拓展，多语言问答面临着和单语言完全不同的难点和新的技术挑战，包括新接入的语言大部分是低资源小语种，如何利用高资源语言迁移帮助低资源小语种取得提升是一个挑战；不同语言语法、构词各异且复杂，比如阿拉伯语构词复杂，词性多变+大词表导致模型效果下降；东南亚（印尼、马来等）、南亚地区（巴基斯坦等）多种文化混杂，带来语言的混用现象；语言和业务众多，每个业务都需要快速提升，线上维护成本高。

团队在业务中成长与打磨，逐渐构建了语言无关的问答对话技术体系，包括语言无关的预处理、语言无关的句子表征、语言无关的对话预训练模型、语言无关的数据增广和语言无关的运营工具。本文重点介绍语言无关的句子表征：

语言无关的句子表征：加入平行词袋预测、对话适配对比训练、自编码MLM等更多预训练任务来消除语言障碍，并适应到问答领域，增强语言无关的句向量表征学习能力，在拓展新语言时减少对目标语言标注数据的依赖，实现业务快速冷启动；同一种语言在不同地区存在语序混合、语码混合、不同用词等差异，基于Normalization、罗马化转写、数据增广、对抗攻击等方法加强混合语言的句子表示。

3.7 多模态VQA问答

达摩院NLP团队对AI视觉-文本推理体系进行了系统性的设计，做出了一系列创新，包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义融合和对齐技术、知识驱动的多技能AI集成等，让 AI「读图会意」水平上了一个新台阶。

具体地，为了解决多模态任务的挑战，基于阿里云PAI平台及EFLOPS框架的工程底座，达摩院语言技术实验室及视觉实验室对AI视觉-文本推理体系进行了系统性的设计，融合了大量算法创新，包括：

多样性的视觉特征表示，从各方面刻画图片的局部和全局语义信息，同时使用 Region，Grid，Patch 等视觉特征表示，以更精准地进行单模态理解；
基于海量图文数据和多粒度视觉特征的多模态预训练，用于更好地进行多模态信息融合和语义映射，创新性地提出了SemVLP [3]，Grid-VLP [4]，E2E-VLP [5] 和 Fusion-VLP等预训练模型；
研发自适应的跨模态语义融合和对齐技术，在多模态预训练模型中加入 Learning to Attend机制来进行跨模态信息地高效深度融合；
基于图片中包含富文本信息的结构化预训练，用于更好的融合图片和OCR文本，提出StructuralLM [6]预训练模型来进行图片、OCR、文本多模态融合；
采用 Mixture of Experts (MOE) 技术进行知识驱动的多技能AI集成，利用知识挖掘自主发现AI技能，通过MoE技术自动匹配构建好的AI技能专家。

对整体技术细节感兴趣的同学也可阅读我们的论文《Achieving Human Parity on Visual Question Answering》，其中E2E-VLP [5] 和StructuralLM [6] 已经被国际顶级会议ACL2021主会长文接收。

2021年6月，阿里巴巴达摩院在VQA Challenge 2021的55支提交队伍中夺冠，成绩领先第二名1个百分点、领先去年冠军3.4个百分点。

两个月后，达摩院在VQA榜单再次取得关键性突破，以81.26%的准确率创造VQA Leaderboard全球纪录，首次超越人类基准线 80.83%。

这是VQA测试以来，AI第一次超过人类水平，是标志性的重大突破。这是继2015年、2018年AI分别在视觉识别及文本理解领域超越人类后，人工智能在涉及视觉-文本多模态理解的高阶认知的多模态技术领域迎来的一次重大进展。该进展被MIT Technology Review《2021人工智能创新研究院报告》作为关键技术突破收录。

四、应用客户和场景

4.1 新零售智能客服

? 4.1.1 店小蜜

? 4.1.1.1 VQA

在店小蜜中，买家提问的时候，店小蜜识别出买家意图，然后去知识库中找到相应的商家配置答案回复用户。这个过程中，答案需商家手工配置导致启动成本高。基于这个痛点，提出利用商品详情页中的图文内容回答问题，这不仅可以减少商家的答案配置成本，降低启动成本，还可以促进买家购买欲望进而促进询单转化率提升。

因此，我们基于图文预训练等技术开发了面向商品详情页图片的问答能力，根据买家的问题，从商品详情页中找到一张最合适的图片，并且在具体的答案区域进行高亮来回复买家。

目前，已经支持了店小蜜的全行业应用，开通商家的解决率和转化率都有明显提升。不仅提升了用户体验，也大幅降低了商家的知识维护成本。

? 4.1.1.2 视频问答

直播带货成为一种新的商业方式，越来越多的商家开通直播来介绍商品，直播视频中包含了丰富的商品讲解、商品细节展示、上身效果等内容，可以基于算法自动切出这些直播视频片段来回复用户，既可以省去商家编辑视频的成本，又可以更形象更具体地回答问题，提升用户体验。

基于这个想法，我们开展了结合文本理解和视频理解技术开发面向直播视频的问答能力，核心工作是对直播视频进行结构化理解。这里稍微展开介绍一下整体方案，首先获取商品对应的完整直播视频片段，然后基于两种方法进行结构化理解，其一基于文本理解技术，针对视频ASR文本进行意图识别和命名实体识别，这里借助店小蜜已有的完善的意图体系和实体类别体系，识别出每个文本片段的意图和槽位值；其二是基于视频理解技术，先通过图文预训练模型进行Video-Text Retrieval来挖掘出符合需求的粗粒度的视频片段，再基于Video Grounding技术来定位更精细的时间区间。经过上述两种方法可以挖掘得到结构化的视频片段作为商家的视频答案。针对多模态视频理解这一块，我们做了一定的创新与沉淀，探索了基于强大的图文预训练模型做Video-Text Retrieval任务的一套有效方法，提出了基于多示例学习思想，仅使用video-level的监督信息实现clip-level的精细化Video Grounding的定位能力。

? 4.1.1.3 商品评论问答

买家评论应用到商家客服问答中存在非常大的挑战，除了通过细粒度情感分析、时效性话术判别、低信息量内容过滤、不确定性话术判别等技术进行内容风控以外，还要结合商家自产内容（客服FAQ知识、商品详情图、商品属性、商家直播内容等）进行多源异构内容的冲突检测和集成整合，以保障这部分内容的可用性。

智能直播间商品问答

随着直播电商的兴起，让智能直播间中的虚拟主播具备问答交互能力必不可少，帮助虚拟主播高效的回答用户对商品的售前咨询问题，提升转化。但由于商家商品数量众多，我们不能让商家逐个配置FAQ，需要提供基于商品现成的多源异构多模态内容，包括商品评论、商品详情页、达人文章等，不依赖商家配置，实现开箱即用的商品问答能力，打造虚拟主播语音播报+字幕/花字展示+看板图片组合的多模态问答体验。相比过去传统的在线智能客服，直播间问答还具有一些新的特点，例如主播是一对多问答，需要在商品内容播报的过程中判断回答问题的时机，通过口语化的方式口播答案，这都给直播间问答带来新的挑战和机会。

? 4.1.2 面向阿里巴巴集团的智能客服

DeepQA技术体系支持了集团数十个BU的智能服务，涵盖在线渠道和热线渠道，FAQ问答支撑大盘大部分业务流量。随着单轮问答效果的不断优化，消费者问答体验的瓶颈逐渐转移到模糊问题的处理上。FAQ问答多轮理解和澄清引导，支持了新零售商家、电商平台、本地生活等众多领域，及热线口语化场景、动态快捷短语预测、图片问答、FAQ知识分类和匹配、无答案兜底推荐场景等众多场景；对于小客户的接入，也可以低成本快速启用多轮问答能力，消费者服务体验方面有了更好的提升。比如热线小蜜中提供多轮语义建模、多轮问题改写、澄清反问、澄清确认、多轮对话状态管理，提供多轮FAQ问答能力，有效提升了系统的出答案率。

? 4.1.3 面向海外客户的智能客服

通过多语言问答技术体系把国内的中文智能服务能力拓展到全球，支持英、俄、西、法、日、阿、韩、波、葡、泰、印、越等22种语言，让阿里集团Lazada、AliExpress、Daraz等国际业务的用户进入智能服务时代。基于多语言算法平台的建设，使得2周内可以拓展一个新的小语种, 整体解决率已与中文相当。

除了快速拓展语言，还要深入当地文化支持地道的本地语言理解，目前在马来西亚、泰国、巴基斯坦等地支持符合当地习惯的混合语言风格。由于中东、南亚地区的一些语言输入法不完善，当地用户在线交流时还常使用罗马化拼音的方式进行输入，系统需要同时支持原始乌尔都语、英语、罗马化（拼音）乌尔都语三个语言混合理解。

4.2 云上智能客服

达摩院新一代人机对话技术体系目前已经服务并全面支撑了阿里云智能客服业务，包括政务城市大脑(政务服务网、12345热线电话机器人等)、金融(银行、保险、证券等)、交通(高速ETC、港口等)、能源(电网、燃气、水务、热力等)、医疗健康(医保、卫生健康、慢病管理等)、运营商（话费、流量等）。截止当前，阿里云智能客服为千余家国内外企业和机构提供了对话式AI相关服务，在制造、零售、金融、交通、通信、政务等近20行业沉淀了成熟的解决方案和客户案例。

在IDC每半年发布的《中国AI云服务市场研究报告》中，阿里云智能客服自2019年以来一直排名中国对话式AI云服务市场份额第一。2021年10月，国际权威研究机构IDC发布了《IDC MarketScape 全球对话式AI平台厂商评估报告》，阿里云智能客服以突出的多轮对话能力、大规模预训练对话模型带来的快速冷启动、低成本的知识构建、低代码可视化操作、自训练的语义模型等产品技术优势，以及丰富场景下积累的领域经验和应用，首次入选IDC全球Marketscape报告，且取得Major Players位置。

? 4.2.1 政务行业

在政务领域，典型业务是12345热线。覆盖场景广泛：包括社保查询、ETC、户籍管理、出入境管理、住房保障、公积金全语音门户等场景。

? 4.2.2 银行行业

数字经济时代，仅依靠人工坐席进行服务的传统模式已渐渐难以适应金融机构的客服业务需求。通过智能客服为人工坐席赋能，一方面提升了人工坐席个人价值，降低离职率，另一方面提升了客服接入效率，改善了用户体验，是金融机构的重要需求。达摩院强大的对话式AI能力、语音识别能力和AIC技术，打造了包含智能辅助、智能培训在内的教练机器人，构建了AI能力平台，客户涵盖多家头部银行。

? 4.2.3 能源行业

能源、基础设施领域：构建全链路服务平台，贯穿新装、计费、故障上报、维修、投诉等场景；渠道覆热线、微信、支付宝等渠道；各地市燃气、水务、热力、电力等均可复用。

4.3 社会责任：疫情外呼平台

在疫情刚刚爆发的时候，达摩院团队就行动起来，希望通过打造疫情外呼平台来助力政府解决一些问题。该平台在五天内迅速打造完成并开始在全国推广，截止到2020年3月31日，这个平台用在27个省、助力政府拨打了过千万的外呼电话，对话完成率超过90%，获得了人民网的“人民战疫”一等奖。

五、新一代人机对话的未来展望

过去这两年，达摩院智能对话和服务团队在技术和业务方面已经取得了很大进展，那人机对话能力现在到底处于什么阶段呢？未来往哪些方向发展呢？

为此，在借鉴自动驾驶5级体系的基础上，我们定义了人机对话能力的5级标准，主要从三个维度来描述：1. 场景的受限和开放程度；2. 人机对话涉及的模态；3. 对话能力是预先定义的还是能够持续学习演进的。这5级标准体系界定如下：

L1：受限场景、单语言、单模态、预定义的对话
L2：半开放场景、单语言、单模态、预定义的对话
L3：半开放场景、多语言、多模态、预定义的对话
L4：半开放场景、多语言、多模态、终身学习的对话机器人
L5：完全开放场景、多语言、多模态、终身学习的对话机器人

按照这个标准来看，业界人机对话基本处于L1到L2之间。未来三年，人机对话会逐步从受限场景拓展到半开放场景，从单模态升级到语音+语言+视觉+情感融合的多模态，对话能力从预定义跨越到具备一定终身学习的对话机器人，从而演进到L3~L4。

而达到L5，让机器在完全开放场景下能够和人跨越语言鸿沟和模态限制自由对话，则还需要达摩院智能对话与服务团队锲而不舍的研究和探索。

诚邀有志于人机对话、知识图谱、智能问答、多模态人机交互、虚拟空间场景人机对话人才加入我们。

达摩院智能对话与服务相关论文

Yinpei Dai, Hangyu Li, Yongbin Li, Jian Sun, Fei Huang, Luo Si and Xiaodan Zhu. Preview, Attend and Review: Schema-Aware Curriculum Learning for Multi-Domain Dialogue State Tracking. ACL-IJCNLP 2021

Che Liu, Rui Wang, Jinghua Liu, Jian Sun, Fei Huang, Luo Si. DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings, EMNLP2021

?Wanwei He, Yinpei Dai, Yinhe Zheng, Yuchuan Wu, Zheng Cao, Dermot Liu, Peng Jiang, Min Yang, Fei Huang, Luo Si, Jian Sun, Yongbin Li. GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection, AAAI 2022

Binyuan Hui, Ruiying Geng, Qiyu Ren, Binhua Li, Yongbin Li, Jian Sun, Fei Huang, Luo Si, Pengfei Zhu, Xiaodan Zhu, Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing, AAAA 2021.

Guanglin Niu, Yang Li, Chengguang Tang, Ruiying Geng, Jian Dai, Qiao Liu, Hao Wang, Jian Sun, Fei Huang and Luo Si. Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion，SIGIR2021

Ruiying Geng, Binghua Li, Yongbin Li, Jian Sun, Xiaodan Zhu. Dynamic Memory Induction Networks for Few-Shot Text Classification, The 59th Annual Meeting of the Association for Computational Linguistics (ACL2020). Seattle, USA.

Yinpei Dai, Hangyu Li, Chengguang Tang, Yongbin Li, Jian Sun, Xiaodan Zhu. Learning Low-Resource End-To-End Goal-Oriented Dialog for Fast and Reliable System Deployment, The 59th Annual Meeting of the Association for Computational Linguistics (ACL2020). Seattle, USA.

Jinghan Zhang, Yuxiao Ye, Yue Zhang, Likun Qiu, Jian Sun. Multi-Point Semantic Representation for Intent Classification, Proceedings of the 34th AAAI Conference on Artificial Intelligence (AAAI2020). New York City, NY, USA.

Yinpei Dai, Huihua Yu, Yixuan Jiang, Chengguang Tang, Yongbin Li, Jian Sun, A Survey on Dialog Management: Recent Advances and Challenges, arXiv: 2005.02233

10.

Haitao Mi, Qiyu Ren, Yinpei Dai, Yifan He, Jian Sun, Yongbin Li, Jing Zheng, Peng Xu, Towards Generalized Models for Beyond Domain API Task-oriented Dialogue, AAAI 2021 DSTC9 Workshop.

11.

Yajing Sun, Yong Shan, Chengguang Tang, Yue Hu, Yinpei Dai, JING YU, Jian Sun, Fei Huang, Luo Si, Unsupervised Learning of Deterministic Dialogue Structure with Edge-Enhanced Graph Auto-Encoder, AAAI2021.

12.

Bin Fu, Yunqi Qiu, Chengguang Tang, Yang Li, Haiyang Yu, Jian Sun, A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges, arXiv:2007.13069

13.

Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin. "Achieving Human Parity on Visual Question Answering", arXiv.org, https://arxiv.org/abs/2111.08896?

14.

Feng-Lin Li, Zhongzhou Zhao, Qin Lu, Xuming Lin, Hehong Chen, Bo Chen,Liming Pu, Jiashuo Zhang, Fu Sun, Xikai Liu, Liqun Xie, Qi Huang, Ji Zhang, Haiqing Chen, AliMe Avatar: Multi-modal Content Production and Presentation for Live-streaming E-commerce [SIGIR2021 Industrial Track]

15.

Guohai Xu, Yan Shao, Chenliang Li, Feng-Lin Li, Bing Bi, Ji Zhang, Haiqing Chen, AliMe DA: a Data Augmentation Framework for Question Answering in Cold-start Scenarios [SIGIR2021 Industrial Track]

16.

Qianglong Chen, Feng Ji, Xiangji Zeng, Feng-Lin Li, Ji Zhang, Haiqing Chen, Yin Zhang, KACE: Generating Knowledge Aware Contrastive Explanations for Natural Language Inference [ACL2021]

17.

Feng-Lin Li, Hehong Chen, Guohai Xu, Tian Qiu, Feng Ji, Ji Zhang, Haiqing Chen, AliMe KG：Domain Knowledge Graph Construction and Application in E-commerce, CIKM 2020, Applied Research Track?

18.

Haiyang Xu, Ming Yan, Chenliang Li, Bin Bi, Songfang Huang, Wenming Xiao, Fei Huang. "E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning", ACL 2021, https://aclanthology.org/2021.acl-long.42.pdf?

19.

Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, Luo Si. "StructuralLM: Structural Pre-training for Form Understanding", ACL 2021, https://aclanthology.org/2021.acl-long.493/?

20.

Chenliang Li, Ming Yan, Haiyang Xu, Fuli Luo, Wei Wang, Bin Bi, Songfang Huang. "SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels", arXiv.org, https://arxiv.org/abs/2103.07829.

21.

Ming Yan, Haiyang Xu, Chenliang Li, Bin Bi, Junfeng Tian, Min Gui, Wei Wang. "Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training", arXiv.org, https://arxiv.org/abs/2108.09479?

22.

?ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross-and Intra-modal Knowledge IntegrationY Cui, Z Yu, C Wang, Z Zhao, J Zhang, M Wang, J Yu [ACM MM 2021]

23.

Xuming Lin, Shaobo Cui, Zhongzhou Zhao, Wei Zhou, Ji Zhang and Haiqing Chen，GGP: A Graph-based Grouping Planner for Explicit Control of Long Text Generation [CIKM2021]

24.

Guohai Xu, Hehong Chen, Feng-Lin Li, Fu Sun, Yunzhou Shi, ZhiXiong Zeng, Wei Zhou, Zhongzhou Zhao, Ji Zhang, AliMe MKG: a Multi-modal Knowledge Graph for Live-streaming E-commerce [CIKM21 Demo]

25.

Fu Sun, Feng-Lin Li, Ruize Wang, Qianglong Chen, Xingyi Cheng, Ji Zhang, K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering [CIKM21 Applied Track]

26.

Fangkai Jiao, Yangyang Guo, Yilin Niu, Feng Ji, Feng-Lin Li, Liqiang Nie, REPT: Bridging Language Models and Machine Reading Comprehension via Retrieval-Based Pre-training [ACL 2021 Findinds]

27.

Shaobo Cui, Xintong Bao, Xinxing Zu, Yangyang Guo, Zhongzhou Zhao, Ji Zhang, Haiqing Chen, OneStop QAMaker: Extract Question-Answer Pairs from Text in a One-Stop Approach, [WWW2021]

28.

Yangyang Guo, Liqiang Nie, Zhiyong Cheng, Feng Ji, Ji Zhang, Alberto Del Bimbo, AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss, [IJCAI2021]

29.

Zhenxin Fu, Shaobo Cui, Feng Ji, Ji Zhang, Haiqing Chen, Dongyan Zhao, Rui Yan, Query-to-Session Matching: Do NOT Forget History and Future during Response Selection for Multi-Turn Dialogue Systems, CIKM 2020

30.

Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji and Haiqing Chen, Simple and Effective Text Matching with Richer Alignment Features, ACL 2019, Long Paper

31.

Ming Yan, Jiangnan Xia, Chen Wu, Bin Bi, Zhongzhou Zhao, Ji Zhang, Luo Si, Rui Wang, Wei Wang and Haiqing Chen, A Deep Cascade Model for Multi-Document Reading Comprehension [AAAI 2019]

32.

Feng-Lin Li, Minghui Qiu, Haiqing Chen, Xiongwei Wang, Xing Gao, Jun Huang, Juwei Ren, Zhongzhou Zhao, Weipeng Zhao, Lei Wang, Guwei Jin and Wei Chu, AliMe Assist: An Intelligent Assistant for Creating an Innovative E-commerce Experience, CIKM 2017 Demo（Best Demo Award）

33.

Minghui Qiu, Fenglin Li, Siyu Wang, Xing Gao, Yan Chen, Weipeng Zhao, Haiqing Chen, Jun Huang and Wei Chu, AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine，ACL 2017，Short Paper

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 sumchina520@foxmail.com 举报，一经查实，本站将立刻删除。
如若转载，请注明出处：https://www.sumdns.com/4673.html

阿里云客服电话（阿里云客服兼职怎么报名）

一、人机对话概况

二、对话式AI面临的关键技术挑战

三、达摩院新一代人机对话技术体系

四、应用客户和场景

五、新一代人机对话的未来展望

相关推荐