语音AI泡沫一片,谷歌、亚马逊、百度又在尝试哪些破局方案?

摘要:泡沫过后,后狂欢时代中对话式AI亟待解决的问题开始浮现。今天的对话式AI中,产业格局暴露了哪些提升空间?如何理解其所面临的问题与机遇?谷歌、亚马逊、百度等巨头又在尝试哪些破局方案?

今年的消费者AI领域,最受关注的一场大战,肯定是智能音箱的狂飙突进。

这场堪称狂欢的运动中,除了一大波硬件产品的快起快落,更大的收获在于,我们看到了对话式AI的技术本身的无穷魅惑。

在智能音箱产品的快速落地之后,消费者和资本一方面开始认识到语音交互可能带来的想象空间与增值潜力,一方面也意识到智能音箱本身在技术体验上确实还有局限性——甚至有声音断言,对话式AI本身不提高,所有设想的语音AI生态都是空谈。

泡沫过后,后狂欢时代中对话式AI亟待解决的问题开始浮现。今天的对话式AI中,产业格局暴露了哪些提升空间?如何理解其所面临的问题与机遇?谷歌、亚马逊、百度等巨头又在尝试哪些破局方案?

今天我们来进入对话式AI的世界,窥视人类如何在语言迷宫中扮演自己的普罗米修斯。

音箱狂欢之后:对话式AI的价值与沉默

所谓对话式AI,是指机器与人在对话服务场景中展现出的AI技术集成。

智能音箱的快速进入市场的价值,不仅是为AI开了个好头,更重要的是让受众与资本看到了对话——这种人类最基本的信息释放模式可能带来怎样的价值想象力。

不仅是内容与电商的激活,全方位全天候多能力的对话式AI甚至完全有能力成为接下来的家庭中心与个人生活助手、商业秘书。其延伸的商业价值当然不难想象。并且对话式AI是牵动其他多种AI语音交互的关键,涉及语音理解、语义判断、语言增强记忆和深度语言交互等多个技术端口,可谓NLP技术向未来发展的轴心。在整个AI技术应用命题中占据着绝对地位。

但问题是,在音箱狂欢逐渐趋于理性之后,很多对话式AI在系统端的技术能力问题开始浮现。比如理解能力有限、唤醒成本过大、深入用户沟通能力缺失等等。

这些技术瓶颈导致了对话式AI全面转向个人与家庭助手的过度将被限制,很多创意性的语言与声音AI应用也成了无本之源。无论是学界、巨头还是创业者,都在共同期待智能语音完成一个快速的跃升。

三重门:强AI语音应用的难题何在

摆在强语音交互的对话式AI面前,最急需解决的是三大问题。跨过这三重门,或许终端硬件与服务将带给用户完全不同的认知体验,甚至重新定义对话式AI。

1.对用户语音的贴合认知:消弭噪声、方言、多人、语音不清等因素带给人机交互的障碍,让用户在现实环节中与智能体沟通没有磕绊,达到无成本沟通。

2.极限化降低唤醒成本:完成对唤醒行为的无死角响应,因为唤醒效率低往往导致用户彻底放弃一次人机交互。但如何在复杂环境中随时能被唤醒,做到无处不在,其中有很多技术场景需要挑战。

3.从语义理解到记忆理解:从“我说你听”到“共同探讨”是一个非常剧烈的改变,智能体能否记忆并分析用户的语境、上下文,给出智能化更高的应对方案,甚至主动服务与建议,可说是对话式AI的未来核心。

这三道技术挑战摆放在我们面前,而最有可能的破局者,当然是行业中的几大技术巨头。

传火者:破解对话式AI难题的破解思路

假如AI是人类从万物混沌中盗取的火焰,那么今天就是把这枚火苗传递下去,让它盛放的时候。在对话式AI的破局路径中,几个AI巨头也在尝试不同的方案。

比如谷歌更多是通过收购相关项目与API解决方案,加强对谷歌大脑技术的训练强度,来获得对话式AI的提升。而亚马逊则选择与微软等大企业进行产业联合,通过产业链价值来撬动竞品份额。

不难看出,欧美巨头在这个领域还是比较保守的,对自己的技术积累非常重视。非常客观的看,这个领域缺乏各个场景协同击破、开放面对挑战的大事件。

这里必须要安利百度刚刚发布的普罗米修斯计划,相比较起来,这个计划更激进也更开放,甚至打破了很多AI行业的固有“潜规则”。

11月9日,百度多个部门联合发起了DuerOS普罗米修斯计划。普罗米修斯计划包含开放数据集、跨学科合作等多种计划,还将设立100万美元的基金用以资助和培养对话式AI领域的优秀项目和人才。

可能与大家之前见过的各种计划不同,普罗米修斯计划最让我们眼前一亮的是这个数据集的发布。

我们知道,今天的AI复兴,是以有效大数据牵动的机器学习为基础条件的。对于研发者来说,数据的真实、优质与量级积累是所有成长型AI的前提。在研发情景中,数据集是研究者与开发者训练算法、设计模型的根本。没有优质数据支撑,研究者就需要从一条条数据开始收集起。那毫无疑问就是让画图纸的建筑师从挖沙子开始工作....简直有点可笑。

但是在对话式AI领域,此前只有非常少量的公开数据集,但大多数据量很小,且非常原始,跟不上新的技术趋势需求。更重要的是,中文语音数据集差不多就没有。这也让语音交互领域的学术人员、创业团队开始中文深度研发近乎成为了不可能的任务。

由于语音识别数据集对于企业来说可谓至关重要的战略资源,因此行业通例是不进行开源公布。从这个角度看,百度的“传火”计划确实是令人意想不到的。

更重要的是,普罗米修斯开放的数据集并不仅仅是“从无到有”,甚至几乎能称为“一步到位”。首先,百度的数据集配适了最关键的几个领域,包括唤醒、识别、多轮对话等核心领域,与目前需要攻克的层面相一致。其次,开放数据集的数量非常庞大,包括五十万条唤醒数据、数百小时的误唤醒数据。再次,数据集的主题与层次足够丰富,能够满足不同开发者的个性需求。

具体来说,在远场唤醒方面,DuerOS将发布五十万条“小度小度”和其他主流的中文唤醒词录音数据,以及数百小时的误唤醒录音数据;远场识别方面,DuerOS将发布数千小时中文远场语音识别数据;多轮对话方面,DuerOS将发布万段对话数据,涵盖十余种主题。

在开放数据集之外,普罗米修斯计划还将推出人才培养计划、学科共建等内容。DuerOS计划推进100+人才及产品激励项目,包括联合百所高校共同发展、打造50+对话式AI精英俱乐部;建设联合实验室等规划。

同时DuerOS计划联合学界及高校探索对话式AI创新及学科建设,主要包括高校学科研究探索、设定科研课题,推动实验室、高校团队与DuerOS共同研究,产出优质项目和论文;打造标对话式AI课程等规划。

大力投入学术研究,是架设在巨大的产业需求基础上的。在产业层面,目前DuerOS已经具备10大类目100多项能力,与大量品牌达成合作,能力被广泛应用到手机、电视、音箱等智能家居、智能穿戴和车载场景中。

对于趋近技术临界点的对话式AI来说,今天毫无疑问需要更加开放、包容的态度,积极推动学术力量和开发者共同加入最后一公里的快速推进。

这一点,中国的百度展现出了不一样的战略思考,同时也显现出DuerOS在对话式AI的技术积淀达到了开放模式的前提,并不担心技术外漏带来的产业危险。

在我们面临技术瓶颈的是时候,合则两利分则两害。百度的传火计划,或许比欧美巨头更适应这个万花齐放的人类2.0时代。

本文为 品途商业评论(http://www.pintu360.com)投稿作者:脑极体 的原创作品,责编:冯群英。欢迎转载,转载请注明原文出处:。本文仅代表作者观点,不代表品途商业评论观点。

您可能感兴趣的文章

爬虫凶猛:爬支付宝、爬微信、现金贷放贷数据岌岌可危!

平均排片不足4%,上映6天,票房破2000万,《七十七天》怎么就意外走红呢?

搜狗当真是“第四大互联网公司”?京东携程笑了

发表评论

您的操作太快喽,请输入验证码

您输入的验证码不正确。

看不清? 点击更换
确定