编者按:邓力博士原为加拿大滑铁卢大学教授,年加入微软,年起担任微软首席人工智能科学家,负责微软深度学习技术中心应用趋向的深度学习研究。
在上周的AIFrontiers会议上,邓力博士为参会嘉宾做了口语对话系统的专题演讲。雷锋网与会记者将现场演讲记录下来,结合PPT为大家整理出这份演讲实录。此次邓老师介绍了口语对话系统的分类,三代演变史,以及三大研究前沿领域,可谓干货满满。NLP领域的童鞋们不可错过。
邓力:
今天,我想讲一讲口语对话系统(SpokenDialogueSystem),有时人们也称其为“bots”。“SpokenDialogueSystem”成为一个术语已经有30年了,现在我们也称其为对话式交互界面(conversationalUI)。所以它有好几个术语,但基本指的是同一件事。开发这类系统,需要能够与人对话,要么通过语音,要么通过文字。这次我专门讲语音,以及这两类bots之间的根本性区别。
语音识别vs基于文字
语音识别技术在最近五年中飞速进步,这两类对话系统之间的差距在缩小,这是一个很重要的信号。但在另一方面,许多情况下我们仍然有许多语音识别错误。在某种程度上,我们可以把对话系统看作:
对话系统=语音识别+基于文字(text-based,或翻译为“语义理解”)的系统
语音识别向基于文字的对话系统,提供了一些低延迟的文字输入。因此你可以把它们放在一起(认为它们对等),这是较传统的观点。
如今,你可以超出传统观点,来思考怎么做出整合的系统设计。相比把这两类系统一起放进管道(pipeline),你可以事实上做得更好。这就是整合学习(integratedlearning)的概念。我会聚焦在这个方向。
语音提供了语言之外的信息(Para-linguisticcues),比如语气、情绪。这在基于文字的对话系统里是没有的——后者没有提供这些信息,或者说线索。从这个方面来说,两个系统不是对等的。取决不同的用户,语音输入可能会比文字输入更简单——但也可能更复杂。对我个人而言,由于对语音比较了解,我倾向于使用语音来表述复杂事实,它的错误率未必会那么高。语音使得我能更快地提供更多信息。但对于大多数人而言,当使用基于文字的对话,他们倾向于使用复杂句式。原因要么是这样做更快,要么更可能的是,他们会担心对方的语音识别能力,然后不想重复、或者说太多,尤其在噪声大的环境下。取决于用户的个人特质,这两种情况都可能发生。我认为,随着时间流逝,语音识别系统越来越成熟,语音和文字对话在这方面的差距会越来越小。
另一个很重要的方面是窄领域vs宽领域(narrowdomainvswidedomain)。基于语音的对话倾向于聚焦在窄领域。但现在正变得不一样,因为语音识别技术的进步。
几个月前,Venturebeat发表了一篇很不错的文章“”,对口语对话系统作了概括(再次提醒,有些人称其为Bots,有时称之为对话式交互界面),以及它们的业界现状。IntroducingtheBotsLandscape
Bots领域的景观一览
上栏:有吸引力的Bots;左栏(由上至下):连接器/分享服务,发现Bot,分析;右栏(由上至下):AI工具:NLP、ML、语音识别;Bot开发者框架和工具,短讯
对话系统可被看作是一个连接器,来把你的技术与第三方相连。然后你有一系列开发框架和工具来实现这点。微软在这方面有大动作:11个月前,微软Build开发者大会上有一个重大的宣布,即MicrosoftBotFramework(微软Bot框架),它让大家、第三方都能使用。
Bots的分类
由于时间限制,今天我只会聚焦于AI工具,在自然语言处理(NLP)、语音识别这方面。从这个角度,我会回顾自年代初以来,相关技术经历的三代发展。
几个月前,我写了这篇文章,讨论bots的价值。今天的话题以该文章为基础。文章中,我首先谈到了app和网络模型(webmodels)遇到的问题;其次,对话作为一个新生的、正不断壮大的移动交互界面(mobileUI),以及在这之中,bots扮演的人机之间智能代理的角色。我会对技术细节作更深入的讨论。“Howdeepreinforcementlearningcanhelpchatbots”
我把bots归纳为三个类别:
社交机器人(socialchatbot)。这方面,微软在中国开发的“小冰”相当成功,是个很好的例子。在美国,几个月前我们发布了聊天机器人Tay(雷锋网注,这就是学会了骂人、在推特上发布不到一天就被紧急撤下的那个,入选年度十大AI事件)。信息机器人(infobot)。它们其实是搜索引擎部分功能的替代——它们允许用户不再需要点击网页链接,而能够直接获得想要搜索的答案。这减少了一部分麻烦。如果问题比较复杂,你也许只需要两三轮解释来是回答更明确。任务完成机器人(task