亚马逊采用麦克风波束成形的远场语音控制,扩大VUI在新世界的无缝融入

历史上有些时刻 , 即使再次重演 , 一切也将会不同 。经济大萧条时代彻底改变了个人财务安全模式;9/11恐怖劫机事件则永远改变了各国对待国家安全的方式;而现在 , 我们都很清楚新冠疫情正在改变人们对健康安全的观念 。人们越来越意识到 , 细菌(不仅仅是Covid-19病毒)如何在宿主之间传播 。要过多久 , 人们才能再次放心地身处拥挤的陌生人群当中?我们还能毫无芥蒂地使用自助式触摸屏服务台或收银台、电梯按钮和门把手吗?尤其是在科技已经提供可行替代方案的情况下 。
目前看来 , 强制性的就地隔离政策似乎已经在许多地区减缓了病毒的传播 , 并平缓了病例上升的曲线 , 但随着经济活动的开放和外出人群的涌现 , 我们得到的教训和这段时间养成的习惯可能会长期影响我们的活动和行为 。例如 , 美国疾病预防控制中心(CDC)以及全球类似的机构都建议我们避免触摸公共场所那些曾经被频繁触摸的屏幕表面 , 包括上面提到的电梯按钮、电灯开关 , 以及垃圾桶等 。在家中也一样 , 更加频繁地清洁共用设备的表面是明智的做法 , 例如遥控器、开关、警报器键盘、门把手、智能手机、平板电脑、电灯开关和烤箱控制面板等 。在这些设备中 , 已经有许多在使用语音交互界面(VUI) , 而且这类应用还在不断增加(如下文所述) , 而在疫情大流行之后这一趋势会加速增长 。

亚马逊采用麦克风波束成形的远场语音控制,扩大VUI在新世界的无缝融入
文章插图
语音作为一种用户交互界面 , 早已在智能音箱、智能电视和电灯开关等应用中显露势头 。现在 , 由于人们不再愿意触摸公共场所的物体表面 , VUI更是符合个人健康安全的全球趋势 。
各种有关Covid-19新型冠状病毒传播方式的分析 , 已经使全球民众对物体表面的污染程度极度敏感 。现在 , 更多地了解Covid-19病毒在玻璃和不锈钢上的存活能力(以天为单位)与其在纸板(以小时为单位)上的存活时间 , 比较其发病率 , 我们又进一步升级了个人卫生习惯 。病毒无处不在 , 人们不可避免地本能地抵触接触任何公共物体表面 。对许多人来说 , 适当执着于此也许是明智的;但对另一些人来说 , 找到独特的方法以避免接触公共物体表面将只是一种新的习惯 , 这种习惯通过短短几周的逛商场就可以形成 , 并因保护自己、保护别人的愿望而得到加强 。
培养这种习惯是可行的 , 不过事实证明 , 以语音作为用户交互形式的技术已经箭在弦上 , 人们会更多地采用这种新的方法与各种设备互动 , 从智能手机、物联网设备 , 到门禁和安全系统 , 不一而足 。
VUI已悄然进入生活
使用Google Home、亚马逊Alexa和苹果Siri执行语音命令和控制 , 一直被认为是一种“很酷”而实用的功能特性 , 通过语音可以与手机、笔记本电脑和计算机交互 , 还可以控制电视、智能音箱、摄像头、灯光、百叶窗和家用HVAC系统 。关键字识别、始终在线(Always-on)功能、采用多个麦克风波束成形的远场语音控制、可穿戴技术(如真正的无线耳机TWS)的超低功耗 , 以及最近出现的多个关键字同时识别技术 , 在这些高速发展的技术支持之下 , VUI正在更加无缝地融入到人们的家庭和工作生活当中 , 无论对身体健全者 , 还是需要照顾的人 , 无论是反对变革的保守分子 , 还是技术娴熟的行家都已经感受到VUI的存在 。
很显然 , VUI已经远不止酷 , 而是更加有用 。但在过去的几周之内 , 情况又发生了变化 。VUI本质上极大地减少了触摸物体表面的需要 , 这意味着在新冠疫情之后 , 它们会从可选功能变成必备功能 。VUI在家庭中应用很多 , 但在公共场所也可以用来开门、开垃圾桶、完成POS机交易 , 甚至还可以在坐电梯时无接触地选择楼层 , 而这在医院尤其需要 。
随着VUI的普及 , 其智能背后的算法将变得更加完善 , 底层硬件也将更加先进和高效 , 这进一步扩大了VUI在新世界的应用可能性和无缝融入;在这个新世界中 , 受限的接触已成为一种文化常态 。
VUI的实现方法
VUI需要先进的算法与高效的硬件 , 以实现快速、低功耗缓冲、过滤并处理来自语音或其它传感器的输入(例如摄像头) , 从而进行用户身份验证和意图验证(例如 , 用户走向特定的门)的场景感知 。多数情况下 , 这些处理在云端完成 , 但为了降低功耗与延迟 , 并出于保护终端用户隐私的目的 , 需要尽量在边缘完成这些处理 。
这种云端-边缘的分离是一种高层次体系结构方法 , 但即使在边缘 , Always On功能以及语音识别和处理功能也可以进一步拆分 。以功耗敏感的遥控器(RC)为例 , 直到现在这些产品都是依赖一键通(PTT)方式进行语音控制 , 而不是Always On , 这是为了省电 。但Always On功能仍然是最终目标 , 因此系统架构师提出了一种进一步细分功能的方法 。具体来说 , 使用遥控器中的单个麦克风来检测语音 。当检测到有效关键字时 , 遥控器可与电视(或机顶盒麦克风)和处理器配合来进一步处理传入的命令 , 充分利用自然语言(NL)语音识别的优势 , 实现流畅的互动(参见下图) 。
边缘VUI的创新架构方式可在遥控器和被控设备(无论是电视还是空调)之间分配语音处理任务 。这大大降低了功耗 , 并使遥控器从一键通模式变为Always On模式 。
【亚马逊采用麦克风波束成形的远场语音控制,扩大VUI在新世界的无缝融入】 VUI及其周边组件还具有其它一些优势 , 如主动降噪(ANC)、低功耗MEMS麦克风以及诸如蓝牙和超低功耗(ULE)等无线技术的集成 , 后者更可实现可靠的双向语音通信 。这些优势固然重要 , 但更重要的是 , 在后疫情时代 , 它为我们与设备和系统之间新的、完全不同的交互方式提供了支持 。VUI在疫情刚出现时恰恰处于上升时期 , 这纯属偶然 , 但这并没有改变既成事实 , 现在是时候考虑如何将其集成到下一代设计中了 , 并使之更直观、更顺畅 。让我们共同努力来做好VUI , 因为用户已经历了太多的创伤 。
责任编辑:pj

    推荐阅读