新天地彩票注册

车载语音越来越好用了,原来背后有这些原因

作者:华一汽车科技    来源:www.fg2388com.com    发布时间:2020-07-23 15:48    阅读:次

不难发现,现在车载语音交互的体验越来越完善。它不仅能完成更多的指令,而且能和我们进行情感交互,甚至还懂得一些基本的伦理纲常。
 
车载语音
 
那现在语音体验发展到哪一步了?实现这样的体验都有哪些路径?这些路径之间有什么不同?为什么我们的体验越来越好?下面我们带着疑惑,一一讨论这些问题。
 
现在的语音系统体验怎么好了?
 
首先语音的基础能力更强了。
 
之前虽然能完整跑通 ASR、TTS 这些流程,能实现一些简单的 NLU/NLP 能力,但体验有很多漏洞,比如有可能识别失败,指令完成缓慢,交互逻辑不合常理等等。现在来看,这些基础能力正变得更强,基本可以称得上是一个「有价值的工具」。
 
具体表现有,能够支持打断,支持多轮对话,支持上下文理解,支持中英文混合理解,可以自动纠错,支持免唤醒,误触率降低,反应速度增加,能够识别更轻的声音,能够输入更长的对话,能够理解一条语音多指令,能够理解一些普世的伦理逻辑……
 
说到底这些基础能力只是一种交互模式,是一种手段,真正要实现价值需要结合应用和生态。所以现在的车载语音还将触手伸向了更多领域:
 
1. 将语音和软件功能结合。比如和操作系统结合,和地图导航结合,和车机上所有的应用生态结合,和市面上主流的 Feed 流结合。举个例子,你可以说「屏幕亮一点」,「回到主页」,「打开 XX 地图」,「我想听周杰伦的歌」,「搜索附近的充电站」,「苹果今天的股价是多少」,「林则徐是谁」等等。和多种应用结合其实是个很大的突破,可以想想,至今 Siri 都不能完成「我要听 XX 的歌」这样的指令。
 
2. 将语音和硬件设备结合。这里是指控制车内的一些硬件,比如开闭空调、车窗;和其他的智能设备结合,比如车控家,智能手表等等。
 
另外近几年还衍生出了虚拟助手的概念。这对完成指令本身没有帮助,但在感性层面,它往往非常能打动消费者。一个合适的虚拟形象,往往会成为这套车机系统,甚至这款车的加分项。
 
同样的语音体验
不一样的实现路径,不一样的想象空间
 
可喜的是,现在确实已经有一部分车型,或完全或部分实现了上面这些功能。但它们的实现路径其实不太一样。下面我介绍 3 种。
 
1. 使用 BAT 的车联网方案,搭配对应的语音能力。
肤浅来说,现在车机系统最明显的表现就是搭载各项互联网应用,比如高德地图/QQ 音乐/车载微信/爱奇艺等等。所以 BAT 现在都有一套比较通用化的自家生态方案,里面有不同的功能模块,OEM 可以选择「打包上车」,这其中就包括车载语音系统。
 
自家的生态,配上自家的语音,那肯定体验会更好一些。拿腾讯来说,他们推出了微信车载版,在腾讯叮当提供的语音下,我们收发微信语音非常流畅。另外腾讯还有一个产品叫「腾讯随行」,配合腾讯叮当收发微信位置,打开小程序,也很流畅。「爱趣听」也是一样。
 
语音识别
 
当然,腾讯也会辅助开发系统,给予 Feed 流支持,做一些 NLU 的开发,所以和腾讯合作的车机系统(比如哈弗 F5 搭载的 Fun-Life)基本都能实现我们上面说的那些功能。同理,百度(DuerOS)和阿里(斑马系统)的方案也可以。
 
不过,虽然 BAT 都能实现上述功能,但他们还有一个共通点就是基本无法实现「全流程开发」。也就是说车内基础的 ASR 和 TTS 能力可能是由其他语音供应商提供,而 BAT 负责语音控制生态以及其他相关 NLU 的工作。
 
当然,这并不是说 BAT 没有实现 ASR 和 TTS 的能力,据了解有些互联网大厂已经开始做相关的技术储备。只是语音交互是一个从前端降噪-语音触发-识别-理解-语音反馈的长技术链,而科大讯飞、思必驰、纽昂司等老牌语音公司,在 ASR 和 TTS 这种基础语音能力的工程化交付上有更多的经验,所以大家各司其职,合并合作,其实是更有效率的做法。
 
2. 不把语音当产品,而把语音当平台。
据了解,如果车载语音仅依靠供应商,那用户的指令从触发,到识别,到理解,到反馈,再到执行,是一个脱离的过程,反应时间自然就长。而博泰认为,车载语音不只是一个技术产品,而应该是一个涉及到整车的电子电气架构、车辆信息安全以及车辆数据闭环的「平台」。
 
以导航功能为例,它会在识别指令的同时,直接抓取关键字上传到地图引擎。比如我说「导航到北京机场 T3 航站楼的停车场接个人」,关键词是北京、T3、停车场。关键词抓完,导航实施执行。所以有可能我话没说完,云端已经开始计算执行了。这是集成的好处。
 
当然这个产品也并不完美,在我当时的体验下,虽然语音有很极致的体验,但它和其他应用生态的结合和适配比较一般。另外未来博泰如何把相关能力输出给 OEM,我也暂时打个问号。
 
3. 自己定义语音交互框架。
识别速度很快,功能结合深入,对话逻辑自然幽默,语音助手的新形象也更高级了一些,而且语音反馈的女声实在是很甜美。这其实能表明,AISpeech 和 Xpeng in House 把 ASR 做的扎实,TTS 优化地好,NLU 也做了比较深刻的训练。
 
另外,再说说说自己搭建语音交互框架有多重要。我举个反例。近期我们体验了一套传统豪华品牌下全新换代车型的车机系统。这套语音系统的框架是德国定义的,语音供应商分别有两家,一家是纽昂司,一家是国内供应商(我们暂且称它为 XX),同时它还接入了天猫精灵的能力。
 
纽昂司和 XX 都承担了 ASR 和 NLU 的任务,算是并行关系,所以用户输入任何一个指令,这俩通道都要跑一遍,最后它俩统一口径实行指令。一旦谁慢了,就要互相等着,所以这套语音的执行速度较慢。而且它的 TTS 有拖音现象,据说是历史遗留问题,是上代车型上的老方案,所以只能如此。再说天猫精灵,它并不会自然唤醒,而是你要对唤醒的语音说一句「你好,天猫精灵」,它才会出现。
 
这么看来,这个语音交互框架是挺乱的,但大厂认可自己的节奏就行。而且倒也不是说要一味的激进,因为不是每个大刀阔斧的产品都是成功的。所以,激进还是保守,后果都要自己承担。
 
为什么现在的车载语音系统变得好用了?
 
车载语音的完善,供应商和 OEM 都做出了努力。
 
从供应商方面来说,早期的语音供应商并没有开箱即用的语音方案,都需要大量对接、磨合。现在各家方案在工程化上解决问题越来越多,实用性也就越来越好。具体表现就是各个技术环节的指标都有量的提升(这里包括抗噪、识别、理解)。
 
在 OEM 方面来说,语音的交互框架更完善,从以前的单工单轮交互逐渐往多轮连续对话能力升级,对话更自由;NLU 的泛化支持更充分,语音识别更准,对话逻辑更自然;功能应用更丰富,更实用,语音和各功能的融合更深入。
 
简单来说,软硬件技术的升级,让机器能听清我们说什么;更丰富的语料和更完善的语音模型,让我们能听清机器说什么;同时上车的功能更多更实用,能满足我们更多车内的需求。
 
智能语音
 
总结
谈起语音进入汽车,可能要追溯到 10 年前。如今 2020 年了,车内语音交互终于让我们感受到了进步。
 
上面我们谈到现在的语音交互如何好用,实现路径有几种,也分析了背后的原因。这是每家供应商在推着行业往前走,也是每个车厂自己的选择和节奏。也许有些路是走弯了,甚至走错了,但好的方面是,汽车配置的越来越下沉,用户能用更合理的钱获得更好的体验。
 
最后来思考一个颠覆问题:语音交互一定是车内最好的交互方式吗?如果不是,那上述话题就意义不大了。事实上,我们确实在一边大力发展语音交互同时,一边寻找新的交互方式。(摘自于:极客客车)

 

文章转载请保留原文网址:http://www.fg2388com.com/news/hyzx/1194.html


上一篇:车联网的新时代将会带来怎样的体验

下一篇:自动驾驶技术发展,创新与安全并存


液晶仪表 返回列表
 周易彩票注册 山东11选5走势 飞艇投注 龙猫彩票注册 杏耀彩票官网 信彩彩票投注 上海11选5 贵州快3走势 全民彩票 319彩票注册