云知声：与巨头共舞，成为AI领域BAT的密码

2017/3/22 10:22:24
类型：原创
来源：电脑报
报纸编辑：电脑报
作者：

【电脑报在线】2011年，AI初创企业只有70家。2015年，就已经超过了400家，增长近6倍。到了2016年，中国AI企业709家，全球每10.9个小时诞生一家人工智能企业。

寻找中国AI企业独角兽系列报道之一：

2011年，AI初创企业只有70家。2015年，就已经超过了400家，增长近6倍。到了2016年，中国AI企业709家，全球每10.9个小时诞生一家人工智能企业。

接下来，中国将迎来人工智能和企业成长最好的时代。如同李开复所说，像20年前的互联网，10年前的移动互联网一样，未来几年，出现最多的独角兽公司，肯定是人工智能公司。

身处新的技术和商业风口，如何寻找中国AI企业的未来独角兽？从本期开始，我们将走进一家家AI企业，从中发现未来的AI独角兽。我们的选择标准是，这些未来独角兽公司不仅有着超高的估值和光明前景，以及颠覆性的商业模式和技术，而且是在这场AI革命中，真正让我们感受到带来的世界改变。

企业档案

方向：语音交互

特点：从软到硬

成立时间：2012年6月

员工人数：250人

2016年营收状况：暂无

估值：超10亿美元

融资情况：完成A轮1亿元、B轮5000万美元以及数千万美元的B+轮融资

2017年北京第一次下鹅毛大雪的这天，云知声CEO黄伟很是忙碌。

这位《财富》刚刚评选出的“中国40岁以下商界精英”，先是在上午接受了电脑报记者2个多小时的专访，来不及吃午饭，又马不停蹄的开始准备下午一个重要会议。

窗外，雪花洒落在北京太阳宫冠捷大厦，科技蓝打底的云知声占据了数千平方米规模，200多位员工中，博士、硕士学历员工超过一大半——去年4月，云知声从牡丹科技大厦，搬到了现在环境更优雅的写字楼。对比创业初期拿到天使融资之前，团队半年内几乎花光了积蓄，甚至要借钱来发工资的情景，让记者深感这家人工智能公司在曾经“冷门”行业中蛰伏的不易。

云知声是我们寻找“AI企业未来独角兽”的第一站。外界大多数人听说它，是在2013年高调亮相锤子科技手机发布会，这家成立不足9个月的创业公司，研发出了与科大讯飞媲美的语音助手，然后与乐视、搜狗、阿里巴巴、格力等数百家客户成了合作伙伴——此后又刷新语音行业融资纪录，成为近几年崛起速度最快的语音识别公司。

语音技术作为人机交互方式的入口，是人工智能重要的一环。现在，随着BAT、搜狗等语音技术的布局加强，解读云知声的黑马式崛起密码，就更颇有一番意味。

改变传统医疗的“生态商业闭环”

北京协和医院，一位骨科医生边看片子，边对着手里的麦克风这样说：“核对患者及手术标记无误，麻醉成功后，清洁手术区域皮肤，给予静脉预防抗生素.....”麦克风中的声音，语音实时转化成文字，自动输入进电脑里，记录在了患者的电子病历上。

这是中国首家支持语音识别的公立三甲医院，医生因人而异进行病理录入，平均每个医生每天整理病例的时间从超过3小时，降低到了1个小时。

这个案例，颠覆了过去人们印象中的传统医疗流程，也表明了一个站在风口上的产业，正在开花成熟。

给协和医院语音识别系统提供定制服务的，正是云知声。“这是我们‘云端芯’生态体系中的落地应用之一。在智能家居、智能车载、智能教育等几大领域，都实现了落地。”黄伟说。

他对AI的判断是，AI作为底层技术，必须搭载服务和应用，考验的是资源整合能力。“从技术和需求两个角度，我们认为理想的方式是垂直领域切入，做定制差异化的服务。”

实际上，与初出茅庐时相比，现在的云知声，早就是一家基于物联网、大数据、语音识别多领域布局的人工智能公司。

2014年，黄伟第一次提出“云端芯”概念，将公司定位于“一个IoT（物联网）时代的语音AI服务商”，引入高通战略投资的同时进行内部架构的调整，成立了IoT事业部，占当时总人数的一半以上。2016年2月，又成立了AI Labs。

“简单来说，就是软硬一体结合，甚至要与芯片结合。”在产品层面，利用AI芯、AIUI、AIService技术架构支撑起云知声核心技术的落地和实现，形成完整的“云端芯”生态闭环。“我们根据用户场景倒推，未来用户的形态应该是，比如，在客厅沙发上，自然与空调对话，而不需要凑上去和它交流。场景设定好之后，倒推需要什么样的产品，里面需要哪些技术。”

尽管，这表面看起来并不是技术的颠覆。但这种模式的转变，需要许多底层的基础变革来支撑，需要根据不同的载体形式，定制需求、深度开发——更重要的是，对于一个创业公司而言，可以从中确定自己的商业模式和产品模式，甚至是建造自己的壁垒，这些恐怕才是技术之外更重要的考量。

十年，放弃IT巨头的技术创业者

不过，在目前的AI热潮中，有多少创业者和公司，能够像黄伟这样，准确找到属于自己的商业闭环逻辑？

“过去我们在AI领域耕耘，缺少经费和机会。于当时，我们是不幸。今天来看，对于在AI领域坚守多年的我们来说，又是如此幸运。”回首过去，黄伟很是感概。他说，从现在看，AI创业公司以2011年前后成为分水岭，那个时间段成立，并且坚持技术的公司，现在机会最大。

2012年，苹果Siri开始支持中文。此后，谷歌、亚马逊、英特尔、微软等国际巨头均重金投入语音识别技术；国内，百度和黄伟师出同门的科大讯飞，在行业更是鼎鼎大名。

同样这一年，黄伟离开盛大创办了云知声。作为在语音识别领域浸淫十多年、拿到诸多语音识别大奖的资深人士，他有充分的自信在这个领域大有所为。

2004年，黄伟从中国科技大学这所著名的理工类学校毕业后加入摩托罗拉，为MOTO最具盛名的“明”系列手机开山之作A1200提供语音技术支持。2008年，摩托将整个语音识别团队出售给Nuance。2009年，他加入盛大创新院建立了语音分院。

十余年的语音从业经验，让黄伟意识到，如果把Siri定位为语音助理，用户就会觉得应该什么都懂，但人的需求是千变万化的，一旦做不到就会失去用户。

所以，云知声做的第一件事，是把深度学习应用到了语音识别里，2012年9月，云知声发布了基于传统统计模型的第一代语音识别引擎，准确率为85%，比当时的讯飞高出5个百分点。同年12月，云知声又上线了业内第一家搭载DNN（深度神经网络）的云平台，将准确率提升到91%。这最终征服了以挑剔著称的锤子CEO罗永浩，云知声用一个晚上就将产品集成和锤子科技团队进行对接。

“对一个人工智能系统公司来说什么最重要？答案是大数据。”云知声因此把它开放出来提供给了第三方，平台上接入的企业客户数量很快3万家。快速的数据积累，让云知声进行了一系列数据迭代和算法优化，将通用识别的准确率在2016年提升到了97%。

随后，在乐视TV上、美的空调、抽油烟机上，云知声语音识别技术迅速落地。云知声的合作伙伴数量也已经超过2万家，覆盖用户已经超过2亿，日调用量2亿次，其中语音云平台覆盖的城市超过647个，覆盖设备超过1亿台。

这不能不说是一个商业奇迹——回头来看，从创业开始，云知声只用了2年时间，就将自己基础语音识别引擎落地并步入正轨，再用数据反哺算法，不断将其客户从家电拓展到医疗、汽车、等其他领域。

先考虑什么坚决不能做

“我们证明了：一，BAT之下确实还有别的路。二，行业老大之外这条路确实是可行的。”采访中，黄伟甚至认为，“谷歌、亚马逊Alexa肯定不是我们的竞争对手，合作机会大于竞争。”这是因为从智能层面，国外云服务商在国内落地很难，在亚马逊本土化落地方案等方面，就有了合作机会。

不过，在业界看来，相比于阿里、锤子、英特尔、乐视、美的、小米、格力等合作伙伴，云知声像是一个背后的静默解语者，这种背后的静默,恰好体现了云知声的产品特点：虽然技术加载，却无法被用户形象的感知。

很大程度上，这是由黄伟个人气质所决定的。“先考虑什么坚决不能做。”2012年-2014年，黄伟坚持“不做APP”。他的理由是，APP浪潮一波又一波，他需要的只是专注底层技术的提升和大规模应用。

这个理念，一直保持到了今天，哪怕人工智能行业火爆，他还是认为，不能急功近利的去做事情。

到了2014年，确立了“云端芯”战略，他又有两个不能做：不能只做联网方案、不能只做手机方案——很早黄伟就认为，手机不是语音识别的主战场，未来人们更愿意对着音箱、冰箱、马桶、抽油烟机说话，即便这些设备没有屏幕。他希望，云知声先从终端渗透率不断增加着手，培育用户的习惯。

“创业对于我来说最难的在于，想做的事情有时候会和资源不匹配。”作为中国科技大学走出的理工男，黄伟也曾有过“将技术作为唯一评价标准”的时代，后来他不断修正自己的判断，他认为到了2017年，如果一家AI公司还在讲算法、讲评测，只会非常不成熟。黄伟说，技术和商业，本质是分不开的，没有纯粹的AI公司。技术在一个公司最终的比重只占到20%。尤其在中国这个市场环境中，光有技术是不够的，要补足很多其他的能力。

同时，他觉得自己的心态越来越平和，用他的话来说就是“不会特别悲观，也不会特别激进”——这和他的从小经历有关，在部队大院长大，至今比较喜欢画画，出身理工科却有一颗文艺的内心。这更与他经历摩托罗拉、Nuance、盛大创新院、创办云知声的职场经历相关——在摩托罗拉，潜心做了几年的研发和算法；在盛大，升级了自己管理的技能。而云知声，却可以在BAT之外，再造一个AI领域的独角兽。

对话：

AI是产品与技术结合的“万金油”

黄伟

AI与机器人：根据我们了解，目前云知声主要聚焦在智能家居、医疗和车载三个行业，选择这几个领域的理由是什么？

黄伟：我们的选择并没有刻意选择某个领域，除了技术成熟以外，更多是市场的成熟度。

AI是一种非常基础的资源，对各个行业来说都是赋能的，我们是把相对成熟的技术去引入，顺势而为。比如智能家居领域，已经历了联网化的改造。格力、美的出货设备中联网产品占比已经相当高，具备了与人工智能结合的条件。

医疗领域同样如此，在2013年，医院信息化还是只有WIFI，那时候谈AI根本不可能。但今天，随着深度学习、大数据的积累，我们技术指标上在语音识别的准确率能做到97％－98%，即便是比较嘈杂的环境，也可以做到90％以上的识别，AI与医院信息化的结合，有了一个新的机会。

AI与机器人：从2012年就开始进入人工智能领域，云知声并没有选择去做2C的领域，也没有做App，而是切入人工智能2B，为什么？

黄伟：这可能和我以前从业背景有关。并不是说，我们没有互联网基因，所以不会做APP，实际上，从摩托罗拉到盛大，我可能是人工智能创业团队中最具备互联网基因的。

创业开始时，Siri等各种语音助手很火，但我们认为，这类语音助手注定是个伪命题，一定不会成功。因为AI并不是一个产品，它是一个赋能技术，是“万金油”，比如人脸识别和安防结合才是产品，如果AI没有应用场景，用户是无感的。我们需要做的，是切入这一领域时，将语音助手和场景结合，使得它可以服务于各行各业。比如乐视电视遥控器的语音控制。

商业模式主要来自芯片授权费

AI与机器人：语音识别领域现在竞争非常的激烈，和百度、科大讯飞、亚马逊、搜狗相比，云知声的优势在哪里？

黄伟：行业竞争和共同进步是好事。在我们诞生以前，讯飞是没有压力的。但2012年9月我们发布语音识别，做到准确率85%，超过科大讯飞的80%。这导致科大讯飞加班了大半年，追上了我们。讯飞在产品上经验更加完善，值得我们学习。竞争会促进行业发展，比寡头垄断进步更快。

BAT做人工智能，反而我们并不担心，它们的AI都是为了给现有的主营业务来服务的。比如阿里为电商服务，腾讯为社交服务，百度为搜索，它们的能力是有边界的。一旦下沉到具体领域，我们还是有非常大的先发优势。

AI与机器人：目前云知声商业模式是怎样的？是如何将技术、数据和商业闭环打通起来的？

黄伟：商业模式目前主要来自收取芯片授权费用。比如给格力、美的提供包含服务费的芯片模组价格。医院则是安装系统收费的模式，比如北京协和医院，我们帮助他们部署了约600个工作站。

通过这些设备的落地，云知声可以获得更多有价值的垂直数据，AI公司只有拿到数据和使用数据，公司未来才有更大的空间。

听懂的同时，还要告诉你怎么做

AI与机器人：现在云知声的引擎已经到了3.0版本，从1.0到3.0的迭代，从技术到产品都经历了哪些过程？

黄伟：广度和高度上都有很大的变化。1.0时，基本是单纯的语音识别，到今天的3.0版本，产品从信号层面到云的感知层面、自然语言理解层面，都已经非常完善了，这是广度的变化。

高度上，我们的识别率从1.0版本的85%提升到到3.0版本的97%。如今，口音和噪音识别都不是问题。都可以通过数据加算法的方式来实现的。远讲则可能会是个挑战。

AI与机器人：现在版本运用到实际产品中，比如说智能空调，或者智能家居设备，是否已经可以实现自然语言的交互，和你理想中的智能家居应用、交互场景还有多大的差距？

黄伟：感知，认知，到通用，这是我理想中的人工智能交互场景。现在才是感知和认知的初步阶段。

即便我们现在用了语用计算，还是不够智能，还有很多专业知识需要补充和完善。比如好的语音助理不仅是帮你纪录，不光要听懂你说的，还能帮你预测和规划一些你不知道的东西，比如助理知道你要出差去上海，但上海在下暴雨，那么会提醒你带雨具。

“能够听懂的同时，还要告诉你怎么做。”要实现这一点，背后还有很多专业知识库需要构建。此外这些对话并不拟人化，还缺乏情感计算。这些都是技术限制的局限性，在主动思维和个性化上，还有很长的路要走。尤其是情感计算，我们会尝试在4.0版本里加入情感计算，它可能既不是语音也不是图像，但是一个趋势和方向。

本文出自2017-03-20出版的《电脑报》2017年第11期 A.新闻周刊
(网站编辑：pcw2013)

我来说两句(0人参与讨论)

发表给力评论！看新闻，说两句。

匿名

ctrl+enter快捷提交

更多关于 AI BAT 的文章

读者活动

48小时点击排行

编辑推荐

云知声：与巨头共舞，成为AI领域BAT的密码

论坛热帖