专访 | 声智科技创始人陈孝良:语音交互领域的底层逻辑

“这一次的AI浪潮不会像前几次那样快速冷却,而是会进行短暂回调,迎来新的井喷。”声智科技创始人兼CEO陈孝良对品途商业评论表示。 

做出如此判断的依据是,与前几次AI浪潮相比,今天的人工智能不论是从技术上还是从产业环境上来看,都发生了天翻地覆的变化。30年前那波浪潮之所以迅速冷却,主要有两点原因,一是技术条件还不够成熟;二是因为当时的技术与环境存在割裂,没有能与技术相匹配的产业链环境。这导致技术无法被应用和变现,所以那些拿到融资的创业者后来纷纷被投资人抛弃。这就好比你在计算机只能用于收发邮件的时代,去跟别人讲电子商务的故事一样异想天开。 

而今天来看,人工智能在深度学习、语音交互、模式识别等技术层面已经有了非常大的突破,相应的产业链也变得更加成熟,上至云、大数据,下至各种芯片产品,这些技术和产业链的相互打通形成了人工智能时代特有的商业模式,也诞生了我们今天看到的各种智能化产品。 

所以不难理解为什么这两年一下子兴起了那么多人工智能创业公司。这其中的很多创业者与陈孝良一样,在下海之前,都是在科研所里埋头搞研究的一群人。但与其他人创业做算法、深度学习、语音和图像识别等技术不同,陈孝良选择的是一条在国外已被验证,但在国内还没有人走过的路——语音交互的底层硬件解决方案。 

观察Echo五年,终于决定放弃科研投身创业 

创业之前,陈孝良的身份是中科院声学所副研究员。由于经常与亚马逊的同窗交流的缘故,所以陈孝良对亚马逊的产品格外关注。2011年,亚马逊Lab126实验室正式启动了智能音箱Echo的研发,直到2015年7月亚马逊宣布Echo开放购买,一晃过去了5年。 

陈老师(1).jpg

声智科技创始人兼CEO 陈孝良

这5年中,从事声学研究的陈孝良一直在关注Echo的动向。他对比了很多国内外智能音箱产品,发现绝大部分产品因为只支持近场语音交互,应用场景极为有限。而Echo能支持远场语音交互,在数米范围内都能识别到你的声音。陈孝良认为这才是符合真实场景下的语音交互。他知道亚马逊走的这个方向一定是对的。 

后来Google的动作证明了他的洞察。“虽然Echo面世后遭到了不少人的嘲笑,但Google却清醒地意识到Echo这样的产品一定会给未来搜索方式带来巨大改变,Echo的存在对他们的核心搜索业务将是一个威胁,所以Google匆匆忙忙研发了一款自己的智能音箱Google Home。”陈孝良说。 

也是在那时候起,陈孝良萌生了创业的想法。他非常了解国内创投圈的特点:先等国外搞出了名堂,再将他们的模式和技术搬到中国来。亚马逊用了5年时间做出了Echo,Google紧追不舍地推出了自己的Google Home,这就是趋势。陈孝良知道,用不了多久,支持远场语音交互的产品会成为新的需求。 

远场语音交互面临的最大难题是如何解决真实场景中远距离语音识别的速度与精度,国内目前还没有特别好的解决方案。但这正是陈孝良所擅长的领域。在声学所做了那么多年研究工作,这一次,终于可以出山了。 

2016年4月,陈孝良开始组建团队,正式成立了声智科技,并拿到了峰瑞资本领投的千万元天使投资。 

语音交互的底层逻辑 

声智科技的商业模式很简单,主要是通过出售基于语音交互芯片的整体声学技术解决方案来盈利。可以这样理解,声智提供的是一个没有外壳的语音交互产品,做机器人的公司给它装一个外壳它就成了机器人,做智能音箱的为它装一个外壳它就成了智能音箱。但与市面上那种“傻瓜型”交互产品不同的是,声智科技解决了远场语音交互的问题。 

陈孝良认为,语音交互领域的底层逻辑在于用软硬结合的方式解决远场语音交互。他用谷歌、微软和亚马逊来举例,“在亚马逊之前,谷歌和微软早早就在研究人工智能技术,为什么在语音交互上会被半路出家的亚马逊给超越?因为谷歌微软此前的研究一直停留在算法、大数据、深度学习这些软件层面的交互上,而语音交互的落地要解决的是真实场景下的语音识别,这就要求要考虑说话者与机器的距离,要让说话者在屋子任何位置下的语音命令都能被机器识别。而这又牵扯到对噪声、混响、回声等干扰声音的处理,这是光靠软件所解决不了的。亚马逊则在一开始就将软件和硬件结合起来研究,Echo做了五年,研发出了自己的核心技术——用于远场识别的麦克风阵列。” 

在陈孝良看来,声智科技走的是跟亚马逊相似的路,而且他们是国内第一家将麦克风阵列技术和软件结合起来研发的从硬件到软件自下而上的语音交互公司。这也是声智科技的核心竞争力所在。之所以这样说,是因为软硬一体化是远场语音交互面临的巨大难题。光是麦克风阵列涉及到的关键技术就包括环境噪声抑制、混响消除、回声抵消、声源测向、波束形成和模型匹配,非常复杂。

339519519423402465.jpg

声智科技智能音箱开发板

陈孝良曾在一篇文章中这样描述,“很少有一项技术类似远场语音交互这样要求的链条如此之长。从硬件、算法、软件到云端,缺一个链条远场语音交互的效果就无法体现出来。硬件是所有算法和软件的基础,当前麦克风阵列的硬件体系还不成熟,包括麦克风器件和相关芯片,特别是在控制成本的前提下,很难达到语音信号处理的要求,这也是诸如亚马逊、谷歌甚至微软这类企业不得不做硬件的根本原因。硬件迟早会类似PC和手机一样趋于成熟,但是推动产业链条的升级,特别是制造业的升级不是一朝一夕的事情,这个周期也必须要等待成熟。但是如果仅仅等待,很可能就是起大早赶晚集错过了。”

不愿等待的陈孝良已经率先出发,而且取得了相当不错的先发优势。陈孝良告诉品途商业评论,声智科技与360合作的两款智能机器人都已经量产,而且与另外几家大公司也正在合作。“国内几家大公司都采用了声智科技的解决方案,他们的智能语音交互产品将在今年下半年上市。”陈孝良说。

前不久,声智科技宣布完成由洪泰基金领投、峰瑞资本跟投的1600万元Pre-A轮融资,而这距离声智科技上一轮融资才刚刚过去半年。陈孝良表示,声智科技下一步的发展规划是拓展包括医疗、车载语音交互在内的更多业务模式,并会加大对优秀人才的投入。

2016年11月份,一条来自国外的好消息也让陈孝良更加坚定了自己的创业方向。当时CIRP披露的数据显示,Echo在不到两年的时间内,已经卖出了惊人的510万台。这在业内引起了很大的轰动,让很多一开始不看好Echo的人始料未及。与此同时,国内很多创业者和投资人也开始按耐不住。

走Echo走过的路,似乎是2017年语音交互这个细分赛道下能够看见的趋势了。

本文为 品途商业评论(http://www.pintu360.com)原创作品,作者: 杨国辉,责编:。欢迎转载,转载请注明原文出处: 。本文仅代表作者观点,不代表品途商业评论观点。

发表评论

您的操作太快喽,请输入验证码

您输入的验证码不正确。

看不清? 点击更换
确定