(资料图片仅供参考)

苹果(Apple)的HomePod并没有因为其集成数字助理Siri的功能而赢得太多赞誉,但它确实有一个不可否认的令人印象深刻的功能:尽管受到吵闹的音乐、对话或电视音频的干扰,它仍然能够准确地听到房间另一头用户的命令。正如该公司的《机器学习杂志》(Machine Learning Journal)今天所解释的,HomePod正在利用人工智能来持续监控一组6个麦克风,利用从深度学习模型获得的知识来处理它们的不同输入。

要识别用户对周围环境噪音的指令,最大的挑战之一是要克服HomePod本身:苹果的扬声器可以在非常高的音量下工作,而且它的麦克风紧邻噪音源。因此,该公司解释说,没有办法完全从麦克风上移除HomePod自己的音频——只是一部分。

相反,苹果公司使用真实的回声录音来训练一个深度神经网络来识别HomePod特定的扬声器和振动回声,创造了一个能够消除HomePod自身声音的残留回声抑制系统。它还适用于特定于房间特性的混响消除模型,由扬声器连续测量。

另一个有趣的技巧是使用波束形成来确定说话的用户的位置,将麦克风对准那个人,并使用声音掩蔽来过滤来自其他来源的噪音。苹果公司建立了一个系统,该系统仅根据麦克风当前和过去的信号来判断当地的语音和噪音统计数据,在试图消除干扰的同时专注于语音。然后利用从扩散到定向、从语音到噪声的各种常见噪声训练神经网络,使滤波可以应用于大量的干扰源。

上图:苹果的HomePod可以回答关于音乐的问题,但它不能回答或打电话,直到发布后的更新。

HomePod的另一项令人印象深刻的功能是,它可以确定说多种语言的人中的哪一个是命令的正确目标,从而控制波束形成麦克风和隔离噪音。其中一种方法是使用所需的“嘿Siri”触发词决定谁和命令来自哪里,但苹果也发达技术独立的语言竞争为单独的音频流,然后使用深度学习想说话发出指令,发送的流关注说话进行处理。

机器学习杂志的条目做了一个伟大的工作,突出了人工智能辅助语音处理技术是必要的,但并不足以保证一个伟大的经验与远场数字助理。虽然上述所有技术确实能快速、可靠、准确地触发Siri,但HomePod实际上完全响应请求的能力有限,这是用户在评论中经常抱怨的一个问题。如果说有什么好消息的话,那就是问题似乎出在Siri基于云的大脑上,而不是HomePod的硬件或本地运行的服务上,因此服务器端补丁可以显著改善Siri的功能,而无需用户购买新的硬件。

推荐内容