声学基础及其分析软件 - 声振论坛 - 振动,动力学,声学,信号处理,故障诊断

weixin 发表于 2018-1-17 14:21

从亚马逊Echo到谷歌Home，双麦克风阵列更有优势？

　　亚马逊和谷歌等大公司先后推出智能家居中枢产品，并且都选择了智能音箱作为切入点，推进人工智能落地的战略。这方面已经有很多文章涉及。这一次，我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下，进而引出生态布局的思考。
　　亚马逊Echo(左)谷歌Home(右)　　在刚刚过去的Google秋季发布会上，谷歌正式推出了Google Home智能音箱。它是Google Home将自己的两大技术：Google Now(智能语音系统)与最新版本的Google Assistant(智能服务平台)结合打造出的一款智能音箱。Google Home作为谷歌最为看重的智能中控出生，并采用了双麦克风的硬件配置，售价定为129美元。

　　众所周知，2014年亚马逊推出了第一款智能音箱Amazon Echo，从推出起至今已热销超过400万台，俨然成为了最新一代的科技宠儿。据悉，苹果也即将推出Siri智能音箱。各大巨头和创业企业，纷纷看中智能家居中控这块“肥肉”，由此也拉开了人工智能领域新一轮战役的序幕。

　　Google Home和Amazon Echo都代表了行业巨头通过智能WiFi音箱为入口，推进人工智能落地的战略。这方面已经有很多文章涉及。这一次，我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下，进而引出生态布局的思考。

　　双麦克 vs 多麦克阵列技术上各有高下

　　谈及Google Home的硬件配置，不难发现它和Amazon Echo相比有一个最大的差异，那就是少用了5个麦克风。Amazon Echo采用的是环形6+1麦克风阵列，而Google Home只采用了2个麦克风阵列。
　　图 Amazon Echo采用6+1麦克风阵列　　麦克风阵列是什么呢?就是放置在空间中不同位置的多个麦克风。根据声波传导理论，利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法，麦克风阵列可以将噪声环境中特定声音信号有效的增强。由于麦克风阵列技术具有很好的抑制噪声和语音增强的能力，又不需要麦克风时刻指向声源方向，因此在语音处理领域具有非常好的前景，可以用在非常广的应用领域。

　　根据麦克风数量不同，麦克风阵列具有不同的特点。行业采用的以双麦克居多，比如几乎所有中高端手机都采用双麦克降噪技术来提升通话效果。四麦克、六麦克、八麦克线性阵列和环形阵列在行业内也有应用，但还远远达不到双麦克应用的数量级。

　　首先，双麦克和多麦克阵列的一个重要区别，是成本的不同。显然，双麦克的成本相对比多麦克低得多，除了可以直观观察到的麦克风数量不同之外，为了支持多麦克通道而必须具备的硬件电路、为了处理更多的信号数据而额外需要的计算能力，都使得成本体现较大的差异。所以我们看到两者的差价体现得极为明显，Google Home为129美元，Amazon Echo售价为179.99美元，差价约50美元。值得注意的是，这两家的硬件产品的战略没有多大区别，都是硬件基本不赚钱。

　　其次，双麦克和多麦克的技术路线区别较大。双麦克和多麦克采用的技术路线虽然有类似之处，但算法体系存在较大区别。显然，麦克风越多越容易实现更好的降噪和语音增强效果，所以为了达到同样或者类似的效果，双麦克阵列技术相对多麦克阵列的技术挑战性更高。但因为成本问题，采用双麦克阵列的技术挑战虽然大，但从应用普及的角度上却是大势所趋。

　　另外，从效果上看，如果技术优化足够好，在3~5米的家庭环境中，双麦克阵列虽然可以和多麦克阵列做到几乎一样的降噪和语音增强效果。但双麦克有个缺点，就是声源定位只能定位180°内的范围，而环形麦克风阵列(不管是4Mic、6Mic还是8Mic)都可以做到360°全角度范围内的定位。所以Google Home只能有四个LED灯来显示状态，而Amazon Echo可以用LED灯显示说话人的方向。

　　当然，这个差别仅对具有声源定位需求的产品存在影响，而且对一些本来就需要靠墙摆放的设备如空调、电视机等是没有任何问题的。对于类似机器人等摆放在室内中央的产品，如果希望它能定位说话人位置，那就只能采用多麦克方案了。

　　最后，从产品的角度，双麦克方案简单更易落地。多麦克阵列最大的问题是，无论线性阵列还是环形阵列，其对产品的外观、结构设计都有极为严苛的要求，因为麦克风是要求必须在空间上均匀分布的。而双麦克显然就不必考虑这些因素。

　　基于双麦克阵列的产品生态构建更具优势

　　麦克风阵列作为实现智能语音的必备硬件，可以说是人工智能感知的硬件基础。因此，麦克风阵列的布局，将深深影响人工智能产品的生态布局。

　　首先，众所周知的是，谷歌是以生态见长的公司。比如，Android构建了整个移动互联网的生态基础。在谷歌从移动互联网向AI转型的时候，提出了“AI First”的口号，并推出了开源深度学习系统TensorFlow，这个系统被认为是人工智能领域的Android。

　　那么，谷歌为什么在如此重视AI战略的时候，推出这款Google Home的智能家居产品，并且采用双麦克的方案呢?相信对于谷歌这样的公司，成本和技术绝不会是阻碍他们采用更好技术的原因。

　　据业内人士分析，最关键的就是上面提到的广泛的适用性和落地的便捷性，可能让谷歌最后选择了双麦克方案。谷歌布局整个智能硬件产业链，而非只打造一款爆款产品。现在做Google Home智能音响，以后也可能做电视、汽车等等，所以在软硬件选择上都会考虑更通用、更长远的方案。多麦克阵列对外观和结构的严苛要求，使得该方案的应用场景极为有限，不具备广泛的适用性，以Google的远大抱负，显然会选择适应性更强的双麦克方案。

　　目前，谷歌明确表示会部分开放对接的子系统，包括灯控、温控器、开关三大类。媒体分析，谷歌随后还会提供针对家庭第三方设备的免费软件开发包，以方便鼓励第三方开发商增加新的服务功能，提升Google Home的兼容性。同时对抗出货量400万台的Echo营造的生态体系，因为Echo对接的名单已经是很长一大串，其中就包括了Nest。

　　双麦克阵列在智能家居领域落地最为广泛

　　虽然多麦克阵列方案在业内炒得如火如荼，但在落地过程中，双麦克方案却成为家电产业中出货量最大的方案。据了解，目前国内主流家电厂商应用语音交互技术的产品中，包括乐视电视、海信电视、格力空调、美的空调、华帝烟机等，出货量最大的产品搭载的都是双麦克方案。

　　另外，国内的主流人工智能企业也都在双麦克方案上重点布局。据悉，仅云知声一家企业，目前搭载双麦克的芯片模组每月的出货量就超过几万片，而科大讯飞也在紧锣密鼓研发双麦克方案，争夺智能家居市场。

　　据家电行业资深技术人士介绍，从2012年开始，行业内就开始寻求语音交互技术在家电产品中的应用，并明确要求：第一、用户直接通过语音方式控制产品，且不受产品自身噪声影响;第二、一定距离的远场语音交互得以实现;第三、方案成熟，成本控制。远场语音交互是关键中的关键。当时市场上普遍解决方案都是八个麦克风收音，虽然语音识别准度得以提高，但实施成本、结构难度、生产安装等问题却接踵而来。然而像空调、电视这类家电产品，它永远都是贴墙放，八个麦克风在实际应用上是多余的。双麦克技术在任何产品上均可自然适配。

　　该人士称，双麦克风阵列的结构简单、成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地。相信在未来一段时间内，双麦克都将成为智能家居产品中的主流配置。

　　不同应用场景下自由配置

　　虽然双麦克有性价比和结构简单的种种优势，但并不能完全覆盖所有场景下的产品需求。

　　比如，在机器人领域里，对声源定位的要求比较高，所以一般都会使用环形多麦克方案。这两年国内比较火的Rokid机器人就采用了8麦克的阵列。

　　未来人工智能领域还需要更多适配的硬件，以满足不同智能产品的需求。因此，国内像科大讯飞、云知声等行业领军企业都相继推出了6+1麦克、4麦克阵列方案，满足智能音响、机器人领域的产品需求。

　　从长远来看，麦克风阵列解决的只是感知这一块，更快的落地(双麦克更有优势)、更多种的形态(双麦克和多麦克阵列可配置)，是建设人工智能生态的第一步。

　　本文来源于雷锋网(www.leiphone.com)，雷锋网按：本文作者清风，技术工程师一枚。

页: [1]

声振论坛's Archiver

从亚马逊Echo到谷歌Home，双麦克风阵列更有优势？