为了提高可听语音交互场景中的语音清晰度,双麦克风语音增强(SE)技术结合耳内麦克风和耳外麦克风,已引起研究界的广泛关注。然而,现有的双麦克风语音增强技术基于一个较强的假设:高质量的耳内语音(辅助模态)能够为目标空气传播语音(主要模态)提供有效的补充信息,这降低了其在实际应用中的适应性。在本工作中,作者团队探索了一个关键现象:耳道变形(ECD)引起的气压不平衡会对耳内语音的质量产生不利影响,进而导致语音增强性能显著下降,如图1所示。

图1-耳道变形(ECD)导致耳内语音的质量下降
为了解决这一瓶颈问题,作者设计了一种高效的、质量感知的语音增强方案,名为 QuaSE,它通过评估耳内语音的质量变化,高效且动态地融合补充信息。此外,基于对ECD引起的频谱失真的分析,设计了一种包含质量感知数据选择和内容感知增强的训练策略,以提高QuaSE的泛化能力。系统整体流程图如图2所示。大量实验表明,QuaSE在PESQ、STOI、SI-SDR和SegSNR四个指标上分别比现有最新方案提高了6.27%、4.54%、14.90%和11.93%。此外,还验证了所提出的质量感知融合策略可以模块化地集成到其他感知任务中,从而提高融合性能。

图2-低质量感知的语音增强整体框架
相关论文已被ACM IMWUT/Ubicomp 2026录用,论文第一作者是南京信息工程大学计算机学院、软件学院韩飞宇副教授,通讯作者为南京信息工程大学杨盘隆教授,合作者包括了闫大伟(校聘教授、河北大学)、王山岳(博士后研究员、香港理工大学)、黄锦阳(副教授、合肥工业大学)和冯元浩(博士后研究员、日本电气通信大学)。ACM IMWUT是国际普适计算领域顶刊,属于中国计算机学会(CCF)推荐的 A 类国际学术会议/期刊,团队将在今年10月份的 ACM UbiComp 国际大会上进行宣讲交流。
论文信息:Exploring and Addressing Low-Quality Auxiliary Modality in Earable Dual-microphone Speech Enhancement, Feiyu Han, Dawei Yan, Shanyue Wang, Jinyang Huang, Yuanhao Feng, and Panlong Yang. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol, Volume 10, Issue 2, https://doi.org/10.1145/3810214
(图文:韩飞宇)

