总融资过亿美元,他想让你过钢铁侠般的智控生活

作者:黑板报值日生

本文来自 i黑马(微信号:iheima),极客公园已获转载授权


文:杨洁

在物联网和人工智能时代,产品的智能化已经成为趋势。从电子产品、家电到家居用品,智能的概念在前两年大行其道。智能家居和可穿戴的风口从 2014 年开始井喷,但这种势头在 2015 年下半年,却开始放缓。

于是,我们能对比到,现在大多数人的智能家居和硬件产品,还离我们想象中的「智能」非常遥远。只在硬件上加上一个 WiFi、传感器和 APP,这并不是我们期待的「智能化」的未来。

最像「智能」的产品,或许是亚马逊的 Echo。它整合了 Alexa 语音识别技术,让消费者用声音上网、检索信息、控制家居生活,已经拥有 300 万台的销量,让谷歌都为之眼馋。它体现的价值,也集中在搜索、伺服式语音识别和人工智能之上。

一个新的交互形态,在智能家居和硬件之上正亟需提高。当我们使用上述的智能化场景时,无论是可穿戴设备,还是家居、家电,如果仍然靠 PC 或智能手机的界面来操作,这可能是很难想象的。

不依托于这些手动装置,就能实现对它们的操控,无疑是这些设备最吸引人的便捷性所在。语音交互,也成为智能化过程中日益普遍的一项功能。

「交互的形态正在改变。」云知声 CEO 黄伟说。「移动互联网和 PC 互联网时代最大的区别是,我们现在是基于多点触控的应用,用手机上网,用移动设备上网,而不是仅仅用 PC,通过键盘。而到了 IoT 时代,我们又不再只是通过手机,我们可以通过更多的设备联网,而它可能不再有触摸屏。」

从家居到家电,从物流到驾驶,从医疗到娱乐,一个智能的趋势正席卷而来。从 Siri、小冰,到 Echo,到搜狗的语音输入,再到度秘。也许人工智能的发展进程我们还不能预判,但商业和生活的智能化,却已经是一个不可逆转的过程。而其中,语音交互,或许会是一个新的智能时代的新入口。

创业家&i 黑马在云知声的体验间里,体验了乐视超级电视 X55 和华帝抽油烟机,如何在家庭场景噪声下唤醒和操控。通过语音的控制,窗帘可以自动开启,灯光可以调节。创业 4 年,累计融资过亿美元之后,云知声,也许在物联网和人工智能兴起的浪潮中,也将面对一个更大的发展时机。

捕获i黑马云知声.PNG                                云知声 CEO 黄伟(受访者供图)             

物联网智能硬件要和服务打通

2008 年,科大讯飞上市,一度垄断国内语音识别市场的半壁江山。深度学习的发展,给了语音识别新的驱动力,但在 2012 年,云知声初成立之时,在这片江湖中,玩家还是寥寥无几。如何实现弯道超车?当时云知声,决心从开发者平台做起。

在当年,许多公司的创业方向都还是语音助手 APP。「但我并不认为这个方向能够成功,尤其说它根本不适合一个创业公司去做,做这个会比较难。」黄伟说。

黄伟的判断来源于自己多年来的从业经验。作为语音识别的领军人物之一,他先后就职于摩托罗拉和盛大创新院,曾成立盛大创新院语音分院,在 2012 年,黄伟离开盛大。「我自己做过很多年的技术,我非常清楚,语音其实是技术,并不是产品。它是用来解决人跟设备的交互问题的,但交互本身不是目的,人们是要通过一种最便捷的方式来获得后面的服务。就像手机的多点触控,你离不开屏幕,但你觉得只有这块屏幕好玩吗?当然不是,吸引你的,是它背后的各种互联网服务。」Echo 之所以成功,不仅是它的语音交互,还是由于,它可以和亚马逊电商打通,可以直接提供服务。

但是,对于创业公司而言,它也往往只限于提供这种交互方式本身,是很难具备连接交互后面服务的能力的。「当时选择做平台,是因为这样至少我们是有技术价值的。」黄伟总结。2012 年 9 月,云知声语音平台发布,当时的精确度只有 85%。

但是,语音平台也为云知声源源不断积累了语音数据。2013 年初,准确度提高到了 91%;而到了 2013 年底,云知声的语音数据已经积累到 3000 小时,精确度提高到 95%,平台上开发者超过 8000 家。

从那时起,数据+算法就成为云知声「双门驱动」的引擎。从一开始,云知声就和深度学习结合在一起。当时的深度学习还主要是停留在学术界,很多人对此了解并不多,而深度学习,也需要超过以往不同数量级的数据支撑。但在 2011 年,在一个语音识别的国际会议上,黄伟遇到了微软首席研究员俞栋,对方告诉黄伟,这是「确确实实进展非常快、能够取得非常大的成就」的。

这坚定了云知声做深度学习的决心。当时公司刚刚拿了天使轮,钱还不多,就在淘宝上买显卡、买机器,在 9 月平台发布后,10 月份就投入了对深度学习算法的学习。2013 年 1 月,云知声深度学习系统对外开放。搜狗云助手、乐视电视,都成为这个系统的首批服务对象。

而 2012 年和搜狗的合作,则是让云知声一战成名。

「当时国内大的公司,百度、搜狗,都想发布自己的语音助手产品,想抢 2012 年底前这个时间点。搜狗自己没有语音能力,就去找合作。」黄伟说。语音识别当年的圈子本来就不大,云知声就进入了搜狗的视线。「他们肯定也评估了很多家,但我记得很清楚,我们跟搜狗从第一次见面到最后达成合作协议,一周时间。」黄伟言及于此,颇有些得意。

从 2012 年中到 2013 年底,云知声没有做过多的商业化的尝试。在这段时间内,云知声通过算法和平台的搭建,逐渐打通了自己数据驱动的路。而到了 2014 年,黄伟觉得,公司到了一个新的阶段,是时候开始仔细思考公司的定位问题了。

黄伟把当时市场上的主流公司做了分类。科大讯飞和 BAT 作为先发者,占据了市场和资源的优势,但是,它们都是从 PC 互联网时代迁移过来的,那么,新的时代转折,是否可以给云知声提供机会?「在 IoT 领域,它们也没有积累,或者说足够的壁垒,那么我们就在 IoT 切入。」

这个新的机会就像黄伟在开始所说的,IoT 时代改变了交互的形态。同时,这些新的设备和人是有距离的,那么,在交互时就必须加入新的能力,而芯片就是解决它的方法。因此,2014 年,云知声提出了「云端芯」,要把自己的能力从云端扩展到终端、再到芯片端。

捕获i黑马云知声1.PNG

                                云知声远场语音识别技术(受访者供图)

5 米之外能语音唤醒和操控家电吗?

「这个端,你可以把它理解成带界面或者不带界面的一个虚拟 UI。」黄伟解释说。「我们把端定位成一个 AIUI,是一个基于人工智能的交互系统。我们也会把很多 AI 技术植入到芯片里面去。比方说,距离比较远的时候,如何实现设备的识别、唤醒、打断;再比如说,在房间里或空旷地段,会有回响,怎么把这个回响给消除掉……我们要把这些新能力不断地补充进来。」

云上是数据的积淀,端是入口,芯片承载了云知声的服务,这也是在这一波物联网智能硬件和人工智能的浪潮中,黄伟对云知声在竞争中脱颖而出的期望所在。

云知声拿着 demo 去和客户演示,一个个说服他们接受这种交互形态。2014 年底,云知声获得高通的 5000 万美元 B 轮融资,开始发力芯片。

但这是比之前的研发要困难得多的一件事,要想做好它,困难重重。「我一直自信我们在技术领域算是做得比较好的,但我们从来没有在任何一个技术点上花过这么大精力来解决问题。」黄伟对创业家&i 黑马感慨。一方面是性能问题要解决,另一方面,要实现芯片工业化量产,需要有太多算法之外的问题需要解决,比如功耗、散热、热高温、防摔……「做 demo 容易,做产品真是太难,太难了。」

2016 年,云知声的芯片开始出货,其中花费了一年半的时间。但黄伟觉得,这些是有价值的。「因为这些能力的补充,包括这些新的产品形态,使得我们的交互方式从移动互联网时代时只能对着手机、做距离比较近的讲话,到今天我们可以实现在 3-5 米之外,通过声音遥控。」

或许很多人还并不理解这会有什么样的意义。但实际上,智能手机之后,下一个人和信息沟通的方式将会是什么形态,是很多科技公司一早就在设想的事情。Google Glass 尽管是个失败的产品,但它却是科技界为此做出的大胆尝试。智能化的趋势必不可逆,而手机 APP,也不会永远都是控制众多智能设备的方式。

但是「去手机化」的过程,需要迈过高高的技术门槛。至今为止,较为成功的产品,也只有一个 Echo。

云知声和乐视电视有着长期的合作。从第一代到现在第三代乐视超级电视,从语音操控到语音交互,都是云知声提供语音交互技术。

2016 年 8 月,美的智能空调发布,它搭载了云知声的 AI 芯,使用者可以在家庭环境中 5 米内通过语音控制空调的开关和温度,空调能结合关键词分析、理解用户意图。

但这款产品的问世也是历经挑战。要想获得厂商的合作支持,就必须能够消除噪声环境影响实现语音控制;空调一般都是壁挂式,所以要实现远场交互;且成本可控。

「Echo 是 6+1 个麦克风,外圈 6 个和中间 1 个,所以它效果不错。但我不行,家电厂商对成本是非常在意的。」黄伟说。「麦克风多了,信息源多,就需要更强的 CPU,成本功耗就要提升。其次,家电大多是靠墙安装的,麦克风怎么放?」

云知声最后采用的是双麦克解决方案,两个麦克风,间距不超过 3 厘米。但问题又来了,只有两个麦克,如何达到性能?云知声花了一年多时间解决这个技术问题,终于在 2015 年这款产品开始生产。现在,市场上的大多数智能家电产品,华帝、格力、海尔、美的等,都是和云知声合作的。

但软件可解决,硬件也还是让黄伟觉得比较麻烦的一件事。比如麦克风。「现在手机上的麦克风,对电话场景下的噪音意识,已经做得非常好了。但在家居市场上,硬件厂商还没有这个意识。比如他们以前从来不会想到,一台电冰箱上会需要一个麦克风。所以,现在对我们软件的要求就更高了。」

除了智能家电和家居,车载以及医疗、教育等行业,也是云知声商业化落地的主要领域。比起智能家居来,车载的应用场景更好想象。当人们在驾驶时,双手都被占用,语音交互就成了最佳选择。但黄伟认为,车载前端产品周期非常长,「从接触到产品要出来差不多要用 5 年左右时间,不适合一个创业公司」。因此,云知声选择从后装市场切入。而 2014 年,黄伟认为是一个新的契机正在出现:「当时已经有 10% 的设备开始使用安卓平台了。我们判断,安卓在车载系统里将是未来的趋势。」经过了半年多的研发,到 2015 年中,云知声开始和厂商对接。到现在,安卓系统已经占据了市场上 90% 的份额,而目前,搭载云知声智能语音 SDK 的车机产品出货量已超过 150 万台。

在医疗方面,协和医院已经和云知声合作,使用医疗语音识别系统,对病历、医嘱等进行录入。而且,这也有助于未来的医疗大数据挖掘工作。

在商业化的策略上,云知声一直选择的是 B2B2C。这也是很多 AI 公司的选择。当一种新技术仍在发展和完善过程中,通过与 B 端的合作,不断获取用户的需求,了解行业,通过反复迭代来完善技术,是看似必然的选择。而 B 端的企业,也是在技术投入成本较大的现阶段,比 C 端更具备付费与创新的动力。

之前,云知声的合作公司还多数是互联网公司的中小型企业,而从 2016 年开始,公司的商业重心开始向大 B 倾斜。「对于中小型公司而言,新的技术和交互形态它们更乐于去尝试。而大企业的推动进程也比较慢。而今年,很多大的企业的生产计划也可以排好了。」而和大型企业合作,对云知声而言,既能扩大市场规模,又能树立起行业中的标杆。

「做商业公司,一定得回归到商业本质上,那就是收入。尤其是像今天资本市场并不是特别好的情况下,大家更看重收入。但我们并不是到 B 为止了,我们还会到 C。我们为什么要做平台?C 端对我们具有用户价值,这能帮助我们的后台不断提升,在 B 端会更有持续的竞争力。」黄伟说。

287972744396895619.jpg

                        云知声医疗语音识别系统的应用(受访者供图)

让机器去理解人类

而这样用语音操控机器,或者机械的一问一答,还是远远达不到「智能」的程度的。开发者们需要去做的,是让它们更加聪明。

如果你坐进自己的爱车,感觉到今天的温度有些低,于是你说:今天有些冷。而这时,你车内的系统会自动将空调温度调高。再或者,当你和你的机器人在户外,你仍然随口表示:今天有些冷。而机器人,会自动理解你的意思,但此时,它不会去寻找空调,而是提示你:披上外套吧。这样的,是不是更令人向往的一个美好未来?

今年 7 月,云知声宣布,完成了技术引擎 3.0 版本的升级,并提出了「语用计算」的概念。关于这个概念,你可以简单地理解成,机器可以理解我们对话的语境,联系上下文进行回答。

调戏过 Siri 和小冰的人,或许了解要达到这一场景有多么困难。「我们推出语用计算是为了产品落地。」黄伟坦率地说。「现在很多聊天机器人,我觉得就是个学术命题。我们对聊天没有强需求,聊天也不是产品。作为创业公司,我希望能解决当下的问题。在智能产品里,我和机器聊天说上好几轮,技术上是很厉害,但用户会不耐烦。我们更多地是把多人对话管理技术和当前状态信息结合在一起,把语音识别、物理环境以及之前的对话信息等结合在一起,让机器做出对应的回答。」而前面提到过的场景,也正在逐渐向现实转化。例如,在应用了云知声语音技术的格力金贝空调中,如果你说有点儿冷,它就会自动把温度调高一度。

「IoT 时代产生的经济规模和经济价值,我认为应该会远远超过移动互联网时代。」黄伟说。「智能手机(Smartphone)和功能手机(Feature phone)的区别是什么?是它通过交互改变了产品本身的属性。而我相信,就像我们家里的冰箱、空调,今天它是 Feature device,未来它一定会成为 Smart device。」