如何使用音频来估计与讲话用户之间的距离,并识别周围的声音

最新研究表明,苹果公司正在研究HomePod或其他设备如何使用音频来估计与讲话用户之间的距离,并识别周围的声音 。
如何使用音频来估计与讲话用户之间的距离,并识别周围的声音
文章插图
Apple的HomePod已经非常擅长于听到您的声音,即使它正在大声播放音乐 。苹果公司有两项单独的新专利申请表明,苹果公司希望将其改进,并将设备的聆听能力提高到一个新水平 。
【如何使用音频来估计与讲话用户之间的距离,并识别周围的声音】其中之一,“基于学习的距离估计”,不仅涉及使用音频来识别用户,而且要弄清楚他们在哪里 。
专利申请说:“通常希望设备使用[其]紧凑型麦克风阵列来估算从设备到用户的距离 。”“例如,该设备可以基于用户到该设备的估计距离来调整播放音量或来自智能辅助设备的响应 。”
继续说:“因此,如果用户离设备非常近,则不会大量播放音乐或语音 。”或者,如果用户离得很远,则可以将媒体播放或来自智能助手设备的响应调整为更大的音量 。”
同样的想法也意味着将其引入苹果公司目前令人印象深刻但有些瑕疵的系统,在该系统中,所有设备都会尝试确定您对“嘿,Siri”说的是什么 。
苹果公司说:“在有多个设备的应用程序中,这些设备可以在彼此之间进行协调或仲裁,以根据从每个设备到用户的距离来决定应回答一个或多个设备的查询 。”
苹果公司提出了简单和更复杂的解决方案,它们都可以同时使用 。更简单的方法是让设备先执行HomePod的工作并首先绘制其环境图 。
然后,它实际上具有“在声学环境中的测量点或模拟点的网格” 。在这种情况下,可以将声音与此“网格”进行比较,以大致了解说话者所在的位置 。
但是,Apple认为这本身并不足够好,并且还说它与Siri最少一起使用 。那是因为一个人说话时可能会动弹,而且他们要求快速回应-此提议不适合 。
备选地,然后,“如果至少两个麦克风阵列可用”,则“可以使用三角测量方法来估计语音源的距离” 。
但是,这里的关键部分是至少需要两个带麦克风的设备 。因此,Apple提供了另一个涉及更多的解决方案,其中涉及“基于学习的系统,如深度神经网络(DNN)”,并且不需要多个设备 。
专利申请说:“深度学习系统可以根据紧凑型麦克风阵列接收到的语音信号来估计每个时间帧的语音源距离 。”
这个DNN系统可以做的是确定什么是语音,什么是背景噪声 。然后,它可以计算“有关直接信号传播的信息”以及“混响效果和噪声” 。
该申请归功于三位发明者,包括MehrezSouden和JoshuaD.Atkins 。他们先前的相关工作包括已获专利的如何使用比普通麦克风少的声音来录制完整空间声音的专利 。
这特别涉及AppleAR中的音频,该最新专利申请涉及真实环境中的物理设备 。但是,如果只是为了避免用太大声的HomePodmini炸毁别人的耳朵而感到很麻烦,那还有很多事情要做 。
该专利申请说:“例如,助听器之类的辅助和增强型助听器可以根据语音源的距离来增强音频信号 。”
这也是第二个新公开的专利申请重点关注的内容 。
识别重要的声音
“基于观察到的声音识别声源的系统和方法”,是关于让一些设备识别其他声音并为我们做出反应 。
“许多家用电器,例如微波炉,洗衣机,洗碗机和门铃,会发出声音来提醒用户该器具的状况已经改变,”该专利申请开始 。
它继续说:“但是,由于各种原因,用户可能无法听到家用电器发出的声音警报 。”“例如,用户可能有听力障碍,用户可能在外面或在另一个房间里,或者设备可能发出被家庭声学场景遮挡的声音 。”
也不必是您的煮蛋计时器关闭 。该专利同样涉及“公共场所(政府大楼),半公共场所(办公室大厅)和私人场所(住宅或办公大楼)”中的声音 。
它说:“(这些)也有声学场景,可以包含带有信息的声音 。”“例如,铃,铃或蜂鸣器可能指示门已经打开或关闭,或者警报器可能发出警报声或其他声音,警告附近的人有危险(例如,烟,火或一氧化碳) 。”
总体而言,该专利申请主要详述了可以“训练”设备以识别“常见声音”的方法 。然后,它将继续侦听其中的任何一个,并且当听到一个声音时,可以发出“响应于确定声音存在于声学场景中的选定输出” 。
换句话说,如果是您的煮蛋计时器关闭,则该设备可能会使您的AppleWatch在手腕上轻按 。或者,如果是防盗警报,则该设备可以通知当局 。
苹果公司表示:“声音中包含大量的上下文信息 。”“识别常见的声音可以使电子设备响应于观察到的环境(例如,根据观察到的声音确定)来适应其行为或提供服务,从而增加它们对用户的相关性和价值,同时需要更少的用户帮助或输入 。”
第二项专利申请归功于包括丹尼尔·克林格(DanielC.Klinger)在内的四位发明家 。他先前的工作包括一项专利申请,该专利用于通过HomePod或其他设备进行安全的电话呼叫 。
责任编辑:lq
.dfma {position: relative;width: 1000px;margin: 0 auto;}.dfma a::after {position: absolute;left: 0;bottom: 0;width: 30px;line-height: 1.4;text-align: center;background-color: rgba(0, 0, 0, .5);color: #fff;font-size: 12px;content: "广告";}.dfma img {display: block;}
如何使用音频来估计与讲话用户之间的距离,并识别周围的声音
文章插图

    推荐阅读