alexa中国(Alexa中国可以为用户提供哪些查询帮助)-第1张

如今的Amazon Alexa是两个巨大的系统:软件端有7000数个服务器端音频Skill应用领域,硬体端内嵌了Alexa的商品几乎全面覆盖了智能化生活的每两个方面。

可早在2015年,Alexa Skill Kit刚对外开放,Skill Store只有10来个专业技能,Alexa他们也根本无法完成惟一的各项任务,比如:单纯概要,播映音乐创作,读图书,增设定时器,增设告诫,车载各款智能化灯和智能化控制器。总而言之就是比Siri能做的事少,又没有Google所以能聊。

不过使用者对Echo的文章却出人意料Bleymard。使用者们并不在乎Alexa的Blancheville潜能究竟有多高,他们的期许很单纯:我不必追到你从前,来点单纯命令,你照做

alexa中国(Alexa中国可以为用户提供哪些查询帮助)-第2张

Echo较好地达到了这个平均数。具体来说,它是两个耳机而不是机器,使用者理所应当地明白它要能播映音乐创作。有了这些,Echo作为耳机称得上不及格,使用者的意见反馈也就相对积极,再断开新颖的读图书和控制智能化家居机能,就已经胜过使用者预期了。

相比之下在人工智慧化被过分宣传品的这一两年,不少商品过分抬价了他们的潜能,导致使用者平均数最佳值,最后连不及格也达不出。再说那些年他们戏弄过的Siri,似乎能做很多事的模样,不过除了被戏弄,有多少人会精确讲出它还有才干些啥?

一定要有机能性,满足用户买房人

所以,如何打造出这款我国的Alexa? 他们专访了作梦知觉的CEO 戴帅湘。

alexa中国(Alexa中国可以为用户提供哪些查询帮助)-第3张

戴帅湘是前百度主任架构师,曾长期担任百度Query理解方向负责人,曾荣获百度语义技术的最高奖。他在2010年提出Query改写模型方案,提升了百度引擎的搜索相关技术,带来大幅广告收益;他拥有20多项专利技术,分布在自然语言处理、语义搜索、自动问题求解等数个领域。

在to C的智能化耳机商品上我国市场已经撕的不可开交,而to B这一块,音频商品广泛的应用领域前景。戴帅湘认为切入to B领域,通过音频服务来满足用户使用者的痛点是一片蓝海。

智能化音频服务能够满足用户的买房人

对于音频商品,他们非常看好以下场景:

智能化硬体:非常看好传统硬体的品类升级,比如智能化耳机和智能化耳机。又比如笔记本和电视上加上音频机能,能想象的两个场景是,通过车载器来控制电视机来选电视栏目或者电影效率远远低于直接音频输入。

智能化安防:单纯的说,能给所有的摄像头加上麦克风阵列,增加音频模块。

智能化医疗:音频在这个领域有诸多应用领域,两个例子是电子病历,单纯的说就是医生在诊断过程中音频输入便能直接形成病历。另外两个例子是医学检测有些是通过声音检测来完成,所以直接加上音频模块既能完成交互又能检测,能淘汰掉屏幕等交互方式。

教育:能将麦克风阵列应用领域于多媒体教室,另外两个应用领域领域则是远程家教。

智能化玩具:具有音频交互机能的玩具更吸引孩子们的注意,但是考虑到玩具成本以及孩子的习惯,单麦识别算法是当前比较适合的方案,比如360儿童机器,360故事机等

汽车市场:在手和眼镜都被占据(no hands no eyes)条件下,音频是个最好的交互方式,汽车上的音频商品是兵家必争之地。

音频将成为下一代智能化设备重要的交互方式是两个确定的事,随着行业的进步,更优质的音频商品将会更低成本进入生活方方面面,为他们的生活和工作带来更多便利。

作梦知觉在上述领域已早有布局,比如最近作梦宣布和暴风合作推出对话交互电视X5ECHO。戴帅湘表示,除智能化电视代表的智能化家居之外,作梦知觉还在布局智能化车载、智能化客服等领域,目前展现在暴风TV上的机能只是冰山一角,智能化交互决策引擎Mor 还在继续开发和不断优化中。

(作梦知觉AI对话交互 TV原型系统演示)

智能化音频服务需要解决的技术难点

所以要满足用户这些需求,作梦知觉的CEO 戴帅湘表示两个智能化音频服务需要克服三大技术难点:

第一是自然音频交互。想让机器理解人的语义,需要将人类的自然语言变成程序讲义,让机器理解程序变为两个执行过程。机器必须先听明白使用者在表达什么,才能进行对话。

第二是知识的表示和推理。人类发送命令的时候,意义未必明确,目前机器的浅层次理解仍停留在搜索引擎。往往当使用者对机器发出我要听周杰伦的命令时,它只是列举周杰伦的歌单罢了。但知识的表示和推理是一套连续的验证和推理过程。

alexa中国(Alexa中国可以为用户提供哪些查询帮助)-第4张

在知识的表示和推理背后需要知识图谱,他们能将每个垂直领域的全面覆盖看作是垂直知识的构建,但是并不是场景越多,规则就要越多,而是尽可能使用更抽象更通用的规则。

每个人的思维路径是有差异的,同样是选餐厅,有的人会优先考虑团购信息,有的人会优先考虑菜系。所以在面对人类的思维时,弱化规则,只在必要的节点处增设规则,这样既能保证对话应用领域的各项任务导向性,又能给予对话足够的灵活度。

第三是自动服务对接。订餐、订票、接音乐创作、接电视……此类服务需求量级巨大。仅音乐创作一项就有多少个软件?网易、酷狗、QQ、虾米……每两个软件都是不同的接口,传统的对接方式需要耗费copious人力。

做自动服务对接,戴帅湘对此有独特的理解,戴帅湘曾在框计算领域中深耕多年(框计算即使用者只要在框中输入服务需求,系统就能明确识别,并分配给使用者最优的内容资源或应用领域提供商)。自动方式能够节省资源和时间,而做智能化音频服务如果能够开发程序实现让机器自动读取、选择接口接入能事半功倍。

多轮对话的重要性

相比微软的小冰和小娜、苹果的Siri、谷歌的Google Now、百度的度秘等交互引擎,戴帅湘团队开发的Mor引擎一大特点就就在于上下文关联的多轮对话,并且具有场景移植性。

音频助手为的就是在对话中完成服务,如果你想获取信息,它能给你有效的信息,如果你想让它帮你完成各项任务,它能高效精确地完成。

从这个角度,有很多场景需求需要多轮对话,并能精确地理解连续上下文才能最后达到使用者预期的服务。

但戴帅湘同时也表示,多轮对话并不是轮次越多越好,能不能通过对话的方式,协助人获取信息、完成各项任务,对话精准和服务精准才是终极目标。

强调生成模型

戴帅湘认为目前在自然语言理解领域里要求copious训练样本的深度学习适用场景比较有限,他们更多的是使用小样本的生成模型

alexa中国(Alexa中国可以为用户提供哪些查询帮助)-第5张

(作梦知觉创始人戴帅湘)

自然语言理解领域的语义表示是有组合性,而推理的建模强调因果性,很多时候自然语言理解需要有目的、有计划的有步骤的优化过程,而且强调步骤之间的逻辑关系,而现阶段的深度学习更像是两个黑盒子,他只可解决自然语言的中的部分问题,特别当涉及到对话领域,上下文的理解时,深度学习的黑盒子就显得局限很多。

目前比较适合的机器学习算法是生成模型,但是生成模型需要针对问题去建模,其强调的是建模的重要性。利用此类方法建模,一般需先针对问题中的子问题进行元模型建模,然后通过有限的推理方法来组合成更大的模型,其推理过程substantiate的因果关系清晰可见,能从结果意见反馈来追本溯源,逐步优化推理中的每个环节,即使在小样本集上往往也能训练出好的效果;而且生成模型推理过程中涉及的参数比较少,一般都对应具体的物理含义,具有较好的可解释性。

迁移学习和增强学习

交互的目的是为了决策,而决策需要记忆和学习。

长期的记忆是使用者的个性化习惯或者使用者画像的学习,短期的记忆则是对话中最小的可复用的单元,需要去捕捉,这也是建立在前面提到的多轮对话之上。

而在学习方面,戴帅湘在强调迁移学习和增强学习的重要性。

alexa中国(Alexa中国可以为用户提供哪些查询帮助)-第6张

对于人来讲,在特定场景学习到的知识,人类并不会选择将其固着在唯一的场景中,知识的场景迁移潜能使人在学习新知识时理解起来更加容易,掌握起来更加迅速,即使是从未接触过的领域和场景,人类也能完成知识迁移。

比如找餐厅的各项任务,它可能需要地理位置知识、菜系、交通信息等。如果只是单项知识的单纯叠加,而不能认识到各领域知识之间的关系,缺乏知识的推理潜能,所以当面临更为sophisticated的各项任务时就失效了。

从被动到主动

现在绝大部分的系统都是被动交互型,以现在非常流行的闲聊为例,其根本无法依赖于使用者说的话,根据之前copious对话实例的训练,来生成一句似是而非的回答,以此消磨时间,抑或点燃情绪。

对话式决策系统两个非常重要的机能是需要对环境变换能做出感知,进而转化为语言的表示,来和使用者进行主动交互。

如果使用者刚在家中通过音频助手找到了附近吃日料的A餐厅,走上车启动车载系统,车载系统中的音频助手如果根据上下文位置变化及开车这一动作进行主动发问:主人,请确认是否为您导航到A餐厅?,这种情况下,系统的主动发问是两个非常智能化的表现。

类似的主动服务可能是音频助手的一大竞争力。

从软件到服务

在未来屏幕交互的方式不再是主流,屏幕进一步diminish,甚至消失,取而代之是更接近人与人之间的交互方式,音频,动作,以及各种传感器的自动检测,也因为如此,在不同场景下不同的智能化设备得以出现,承载了一种或多种应用领域潜能,软件之间的边界消失了。

曾经的软件供应商退化成服务提供商,专注于提升其核心数据和算法的质量,软件的开发成本降到最低,但是其使用效率却得到了极大提升,智能化化得以极大substantiate,这是两个机器逐步模仿,并最后胜过人类的时代。

更多海外科技资讯,欢迎关注微信公众号硅谷密探(id:guigudiyixian)