当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
人工智能从交谈开始!玩转语音交互
  • 2017/2/16 10:20:11
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】出于人类的天性,我们对未知事物总是充满了好奇与恐惧。在各种科幻小时/电影中,人们总是赋予机器智慧,却同时害怕着拥有自主意识的机器人

出于人类的天性,我们对未知事物总是充满了好奇与恐惧。在各种科幻小时/电影中,人们总是赋予机器智慧,却同时害怕着拥有自主意识的机器人,这样纠结的心态同样出现在了AI(人工智能领域),人们在彷徨中不断推进着机器智慧的成长,却又担心着机器对人的替代。当好奇压到恐惧的时候,人们尝试同机器交互与沟通,而“说”背后的语音交互则成为大众接触人工智能的开始。

 


能交谈的虚拟助手

“Alexa,请为我播放 Fiorella Pierobon的Moonlight Shadow。”

“Siri,给Jony发个短信,告诉他我可能会晚点到咖啡厅。”

“Cortana,帮我预定辆出租车,13点30在公司门口上车”

……

      从天气查询、拨打电话、短信收发、翻译等命令式的基本应用功能到出行路线规划、车辆/航班预定、美食推荐等需要信息采集、归纳、对比、决策的深度生活服务应用,语音助手基本都能实现,长时间的沉淀让语音助手从最初单纯到有些死板的“功能”成长为看不到的助手,借助底层算法、网络通信、电子电路等物联网生态,语音助手完全可以实现家居家电乃至汽车的控制。为你开门、开灯、调整室内温度甚至询问晚餐牛扒需要几分熟,语音助手足以成为家里见不到却可以实现交谈的虚拟助手,当然,我们也可以借助投影或者机器人、移动设备将其具象化。

 

当前语音助手具有极强实用性

      这样的助手不会有伤风感冒,更不会将个人情绪带入工作中,随着大数据资料的采集,它们甚至会比家人更了解你。不过就目前而言,这样近乎“无缝”的应用体验离实现还有一段距离,语音助手同真实人工助手的差距依旧存在,网络上各种针对Siri或者Cortana的调戏攻略便是语音交互暂不成熟的表现。

 

      语音识别是语音交互首要难点,人们并不担心听不懂机器“说”出来的话语,无论是英文还是中文,语音助手表达时的语音还是相当清晰准确的,但机器听懂或者说识别人类的语音却一直是语音交互技术需要重点攻克的难关,好在后期大数据、云计算技术的逐渐成熟,语音助手的开发者们能够借助海量数据让语音助手采样、学习,借助云计算提高最终辨识率。此外,随着人们对语音交互应用需求的提升,人与机器完成交互的同时,往往还需要机器与机器间配合实现应用,这又对语音交互的跨平台和移植性提出要求。

 

中文与英文的伪阵营

        “我恨你”——不同的语境、情感会表达出截然不同的意思,汉语是全球使用人数最多的语言,而英语是全球使用国家最多的语言,两者的区隔加上不同的地域企业,很容易形成不同的阵营。但实际上,机器并不会对汉语或者英语有特殊的偏好,语音交互系统的强弱更多体现在其深度学习网络、建模结构、标本数据库等,2016年跳跃式崛起的亚马逊Alexa虽然对汉语不太感冒,但苹果的Siri、微软的Cortana和谷歌的谷歌助理在识别汉语上也投入了很多资源。通过语言来划分语音交互应用并不合理,我们更倾向用“本土”和“海外”来划分语音交互应用,将Siri、Cortana划分到“海外”阵营,而百度、科大讯飞、哦啦、云知声等划分到“本土”阵营。

 

本土语音交互大混斗

      “海外”阵营中苹果的Siri、亚马逊的Alexa、微软的Cortana以及谷歌的谷歌助理之所以被国内消费者熟知,很大程度在于各自背后的巨头具有较高的知名度,其实光美国便有近百家专注语音交互的初创企业,派系同样相当复杂,而“本土”阵营经过这些年的发展,成长趋势相对明确且更接地气儿一些,也就成为本次语音交互体验的核心。

       目前“本土”语音交互阵营主要分为2B和2C两大阵营,百度这样的巨头虽有推出“度秘”这样类似小冰的对话机器人,度秘在应用功能上基本完成了对早期百度语音助手的替代,成为本次体验的对象。百度语音近年来加速了B端商务应用布局,语音识别、合成及唤醒三大产品借助海尔、乐视、中兴、联想、比亚迪等合作伙伴不断渗透进入交通出行、应用助手、智能家居、社交聊天、游戏娱乐等领域,生态布局明显。

 

百度语音助手近年来侧重B端合作,以生态形式布局语音交互领域

       国内另一语音交互巨头科大讯飞则同步布局B端商务和C端个人应用市场,而哦啦语音、哦啦语音则侧重C端个人应用市场,至于云知声则倾向B端商务应用市场,以智能家居和车载领域为目标。想要知道某一语音助手是主打B端还是C端市场,可以直接在各大应用市场搜索其名称,如有单独的App则说明它对C端个人应用市场提供服务,如没有则说明该助手主要是嵌入式地服务B端领域。

 

       本次体验将根据不同的应用场景选择相应的“本土”语音助手进行对比,以方便大家从应用出发选择相应的产品,并了解相关应用助手特性。

  

体验对象介绍

       本次体验的语音助手主要为度秘、搜狗语音助手、灵犀语音助手和哦啦语音助手四款主流C端语音助手,分别将其更新到最新版本。在热门的语音输入方面我们选择了百度、讯飞和搜狗三家输入法,主要用普通话和重庆话对比三家在识别及输入体验上的差异,同时,输入功能设定也是考量的重点。

 

C端独立App为主要体验对象

Tips:整个体验在《电脑报》编辑部完成,日常办公环境下使用华硕ZenFone2手机体验。

 

文字录入:最实用的语音交互

      相比《电脑报》编辑部某些拇指1500字~2500字/小时的输入速度,很多读者已经习惯了用语音输入微信文字交流,而淘宝客服在使用手机服务时也非常爱用语音完成输入。

 

讯飞输入法支持非常多的语音种类

 

      方言是汉语一个难点,先不说识别率,光是是否提供支持就足以让语音交互头疼,在体验的三种输入法中,百度和搜狗主要支持普通话和粤语两个语种,后者还提供了英文选项,而讯飞就相当夸张地提供了普通话、四川话、粤语、东北话、闽南话、客家语、云南话(昆明)、湖南话(长沙)等二十余种语音识别模式,更支持中译英、中译日、中译韩等随声译功能,实用性上大大强于其它两家。

 

      而在使用便利性上,搜狗输入法并没有为语音输入设计单独的界面,长按空格键便会提示“说话中”,相对麻烦一些,而讯飞则强调语音输入,只要点击切换到语音输入界面,无需长按即可持续输入,便利性占据一定优势。

 

四川话模式下,讯飞出现错别字

       准确性上,三个语音输入法在普通话时准确率基本没什么问题,不过讯飞在四川话模式下出现了一个错字,也算可以容忍。值得一提的是,讯飞在识别转录速度上相当夸张,明显快于其它两家。综合来看,讯飞在语音输入上毫无疑问的占据压倒性优势。

  

界面设计:个性和差异化的比拼

       软件主界面绝对是一个“仁者见仁”的环节,个人偏好不同,评价自然不同,这里的界面设计比拼主要从易用性、功能设计等方面点评。度秘作为百度出品的对话式人工智能秘书,在首界面即对百度各项服务应用进行了植入,在深度生活服务对比环节我们将选择常用服务进行对比体验。

 

度秘的界面设计上同其它语音助手有很大不同

       哦啦和灵犀、搜狗三款语音助手在功能设计上比较类似,都利用首界面的位置展示了各自的主要服务功能,引动用户使用,不过哦啦和灵犀在设置方面提供了语音个性服务设定,用户可根据个人偏好选择,个性化方面相对更好一些。四款语音助手在界面和功能设计上,除搜狗相对简单外,其它三家都做得不错。

 

三款语音助手首界面设计

 

天气问询:基础生活应用

        手机大多本身支持屏幕上直接显示天气状况,语音问询第三方软件显然有些偷懒,实用性较低,不过问询天气的动作却涉及地理位置信息检索、天气调用等多个系统应用,使用“今天天气如何”的话语问询度秘、搜狗、哦啦、灵犀四款语音助手,都识别出编辑所处地为重庆,并选择显示重庆的今天的天气状况。

 

语音识别率和地理位置都很准确

        在具体的天气内容方面,虽然搜狗、哦啦、灵犀三款都显示了未来3至5天的天气状况,而度秘却很“老实”地只显示了今天的天气,但度秘显示的天气内容却包含了“空气质量指数”这样人们较为关心的内容,倒是可以作为加分项。如果能再显示空气湿度、PM2.5值等丰富的内容,相信会大大提升实用性,就目前而言,度秘在天气问询上的表现略微占优。

 

电话拨打:结果令人惊讶

        操控同样是最基本的语音交互应用,相比同智能家居、汽车等设备连接后的控制,对手机基本功能的控制非常实用,尤其对于汽车本身未搭载相应语音控制系统的用户,语音拨打、接听电话/短信甚至音乐播放时相当不错的选择。

 

哦啦语音助手在电话拨打环节表现最好

        原本认为最简单的电话拨打环节没想到遇到的问题相当多,首先将联系人“张毅”及其两个手机号码保存到手机中人,然后分别对度秘、搜狗、哦啦、灵犀四款语音助手下达拨号指令,其中度秘和灵犀非常郁闷的识别为“张一”,无法完成指令,搜狗虽然同样根据语音识别为“张艺”,但准确地显示了通讯录里面匹配度较高的名字并罗列出两个电话号码,可却需要用户点选号码才能完成拨打动作,而哦啦语音助手则直接通过语音问询笔者想要拨打的号码,直接回答第几个以后,哦啦语音助手准确的完成了拨号动作。

 

       有趣的是在短信测试环节“度秘”、“灵犀”准确地识别出了“张毅”,重新测试拨打电话应用时,虽然能准确找到联系人,但面对两个电话依旧需要用户手动点选才能完成拨号,“灵犀”自动选择了联系人第二个号码播出,并不让人满意。

  

短信发送:用户有点累

         原本以为用语音发短信应该是件很轻松的事情,可没想到还是比较麻烦。当联系人有两个电话时,度秘在发送短信时不会进行筛选,而当原本蛮不错的引导询问式短信编辑,却因为“我想你”这样的话出现了调侃的剧情。

 

度秘判断短信内容时,出现调侃剧情

        搜狗在短线编辑和识别上非常快,不过遇到统一联系人拥有两个号码时,依旧需要手动点选确认。灵犀在整个短信内容识别和发送时非常快,但双号问题还是解决不了。哦啦则延续了电话拨打环节的优势,在短信发送上表现优于其他三家。

 

音乐播放:表现接近

         在音乐播放控制上,以“我想听王菲的歌”为测试命令,度秘准确地接收了指令,但直接跳转到QQ音乐后给笔者播放《匆匆那年》这首歌,想听其它歌曲需要点选列表。搜狗准确地识别了命令并弹出王菲歌曲列表,可同样的网络下加载缓慢,还出现了“音乐加载失败”提示。

 

除搜狗外,其它三个助手在音乐播放控制上表现接近

         度秘、灵犀、哦啦三款语音助手在音乐列表上有所不同,具体音乐音质这些并不在本次比较的范围,对笔者这样希望打发时间的人而言,都算不错了。


美食预定:少了点人情味

       “附近有什么好吃的”——一句看似简单的语音命令,背后却需要语音助手们首先调用地里位置数据,然后联网筛选,在外卖、团购大肆普及的今天,美食服务于本身就是语音助手的主打应用功能,可在体验过程中,“人情味缺失”成为笔者最直观的感受。

 

         应该是数据来源不同,四款语音助手搜索结果差异性较大,本身也可以接受,但度秘、搜狗、灵犀三款助手基本上是根据“附近有什么好吃的”命令罗列显示搜索结果,用户需要手动点选,总少了“临门一脚”的感觉。哦啦则在美食测试环节表现最佳,明确显示来源为“大众点评”的同时,还提示用户“你可以说打开第几家,导航到第几家,打给第几家”,意味着哦啦为用户准备好了后续的语音命令、导航功能以及电话拨打功能,明显优于其它三家。

 

美食预定环节,哦啦明显优于其它三家

 

        哦啦在美食预定上整合的功能已经不错,但整个美食预定环节的问题是语音助手很少涉及“食客口碑”、“美食介绍”等一些关于食物本身的应用,虽然事关口味的差异化数据的确很难获得,但这似乎才是食客们真正关心的点。

  

叫车服务:相对失败

       对于语音助手而言,叫车服务也属于“进阶”式应用,海外阵营的Siri、Cortana、Alexa已经能够实现与用户实现在目的地确认、车型选择、车辆预订的深层交互,除预定出租车外,更通过整合地图功能帮助用户实现路径规划和成本的估算,已经为未来出行路线的规划应打下了基础。

 

       本土阵营的语音助手在这块的表现上多少令人有些失望,“要去机场,帮我叫车”这样的测试指令首先需要语音助手调动地理位置信息,类似询问天气一样判定用户所处位置,然后调动软件自身或第三方服务叫车,最好还可以通过大数据和云计算做路线规划,可实际情况是度秘明确表示打车服务升级中,搜狗则显示不知所谓的文字搜索结果,哦啦更是直接来了个调侃式的“没听明白,要不聊点别的如何?”。

 

本土阵营的语音助手基本无法实现叫车应用

 

       唯独灵犀在识别并调用出了叫车软件,它需要用户手动输入目的地、联系电话等,而且诡异的是它调动的叫车软件是“快的”。综合来看,本土阵营的语音助手暂时全部败在了叫车应用上。这让酒店和航班预定等测试变得鸡肋,毕竟叫车应用已经失败,而更完善的出行服务国内用户本身也很少用。

 

软件启动:差强人意

       语音助手在安装和使用过程中都需要用户“下放”非常多的权限,本身想要更好地体验语音助手或者说“偷懒”,我们也基本上都满足了语音助手对手机权限的索取,但在最基本的软件启动应用上,结果也很让笔者失望。

 

度秘和搜狗无法直接完成软件启动应用

 

        四款语音助手都很准确地识别出“打开东方财富软件”这条语音命令,但搜狗却是弹出软件界面,需要用户手动点选确认启动,而度秘更是显示了一堆百度“疑难杂症”问题搜索结果,倒是哦啦和灵犀非常快速地启动了软件。软件启动可以说是语音助手控制智能家居、汽车等硬件设备的第一步,相比物联网的垮设备应用,如果连最基本的本地软件都无法准确启动,跨平台、跨设备应用恐怕值得考量了。

 

综合评定:结果出人意料

        在语音输入环节,讯飞带来的输入体验绝对是“惊艳”,即使笔者这样习惯拇指高效输入的“写手”,也绝对跟不上讯飞语音输入法的转录效率,而且在保持高效的同时,其普通话识别的准确率也非常不错,对于习惯在微信等社交群里“侃大山”的玩家或者淘宝客服一类工作人员,讯飞绝对是值得尝试的语音输入法。

 

         而在生活化服务应用方面,C端语音助手应用的表现则具有较大差异,原本以为非常简单的电话拨打、短些发送这样的基本应用却因为汉子同音字以及一人多号的问题成为鸡肋,这也算出人意料了。在天气问询、音乐播放环节则各有优劣,不过如果综合美食预定、出行规划这样的体验后,笔者发现基本没有一款语音助手能够满足所有的需求,相对而言,哦啦语音助手表现算是不错的了。

 

写在最后:去屏幕化成为考量标准

      语音交互的未来会怎么样?智能化,可智能化的标准是怎样的?正如一千个读者就有一千个哈姆雷特,每个人对于智能化都有不同的理解和认知,对于语音助手“聪明”还是“愚笨”,每一个用户都要一套自己的判别标准,笔者这里更倾向于将“去屏幕化”为语音交互智能化程度的考核标准。

 

      人与人之间的对话一定要面对面吗?答案显然是否定的,人们愿意在驾乘过程中用语音操控取代触控的原因在于语音或许能更少地让用户分心,可如果语音助手在执行指令或交互过程中,不断需要用户手动输入或点选确认,那语音交互原本的便利性何在呢?如论是嵌入式的B端语音应用还是独立的C端消费类应用,语音交互本身就应该是相对独立的存在,随着智能穿戴设备、智能家居设备的普及,传统显示屏或触控屏幕本身在未来数字化生活中就是“可有可无”的存在,语音交互技术想要成熟,必然要尽可能摆脱屏幕的束缚。

 

      当然,在实现“无屏化”这一远大目标以前,更重要的还是做好声源识别、噪声抑制、回声消除等基本的技术应用,夯实了基础才能更进一步。同机器交谈或许还有一定距离,可语音文字转录已经相当成熟了,建议大家多多体验一番。

 
本文出自2017-02-13出版的《电脑报》2017年第06期 A.新闻周刊
(网站编辑:shixi01)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖