본문 바로가기
Papers

(2023,ICASSP[submit])Deep Neural Mel-Subband Beamformer for In-car Speech Separation

by 저녁추천좀 2022. 11. 30.

Deep Neural Mel-Subband Beamformer for In-car Speech Separation

자세한 스펙 및 구성은 공개되지 않음

submit 이긴한데, 저자의 해당 모델 시리즈가 INTERSPEECH. ICASSP에 계속 등재되어 왔음

ABSTRACT

기존의 문제

DL 기반 빔포밍이 효과적이기는 하지만 각 주파수를 독립적으로 처리하는 Narrow Band로 수행한다. 이 때문에, 연산량이 많고 연산 시간이 길며, 실제 환경에서는 잘 동작하지 않게된다.

제시한 방식

  • DL기반의 mel-subband spatial-temporal beamformer를 통해 차량환경에서 적은 연산량과 시간으로 음성 분리를 수행하는 모델을 제시한다.
  • 기존의 subband 방식과는 다르게 mel-scale 기반의 subband를 통해서 정보가 많은 저주파 대역은 fine-grained로 정보가 적은 고주파 대역은 coarse-grainded로 처리한다.
  • 각방향에 대해서 추정된 speech, noise subband의 공분산으로 frame-level의 빔포밍 weight를 출력한다.
  • 차량의 loudspeaker에서의 echo를 억제한다.

1. INTRODUCTION

차량 시스템의 조건

DL과 음성기반 동작 기술은 차량산업에서 빠르게 발전하고 있다[1,2]. 이 환경에 사용되는 시스템은 몇가지 도전과제를 가진다.

  1. 다양한 분야의 전문가들에게 시연을 해야한다.
  2. 음성 향상[3,4], 음성 인식[5,6], 화자 인지[7], 음성 분리[8,9] 등
  3. 다양한 잡음 조건에서 강인하게 동작해야한다
  4. 제한된 차량 자원으로 빠른 추론을 해야한다.

현재 방식의 문제

현재는 대부분의 SOTA들이 DL기반의 마스크를 사용한 MVDR과[10 - 14] 이의 빈형이다. 이 방식은 다른 순순한 “black-box”인 신경망모델[15-19]보다는 비선형 왜곡이 적다. 하지만 기존의 마스크 기반의 모델은 residual noise가 크다는 단점이 있다.

이전 연구

본 연구진은 이전에 All-Deep-Learning MVDR(ADL-MVDR)[11], Generalized Recurrent Neural Network BeamFormer(GRNN-BF)[13] 로 이러한 이슈를 frame-level beamforming weight를 출력함으로써 streaming 시나리오에 적합하게 하였다. 유사하게 최근에는 Joint AEC and beamforming technique(JAEC-BF)[14] 로 비선형 echo를 다루었다.

문제점

하지만 이러한 방식은 느린 추론 시간과 큰 연산량을 요구한다. 각 주파수축에 대해서 독립적으로 수행하는 Narrow-band system[20-22] 이기 때문인데. 반면에 Full-band system은 모든 주파수를 동시에 수행하지만 전반적인 성능이 낮은 단점이 있다.

Xiaofel et al[23] (2019,)Narrow-band Deep Filtering for Multichannel Speech Enhancement

Narrow-band Deep Filtering for Multichannel Speech Enhancement

은 narrow band beamforming이 주파수 독립성으로 인해 over-fitting을 피하고 unseen에 대해 일반화가 잘 된다고 하였다.

제시된 방식

이러한 것들은 기반으로 챠랑내 음성 분리를 위한 end-to-end subband spatio-temporal RNN beamformer를 제시한다.

 

 

추가적으로 mel-scale 기반의 subband 선택 전략을 제시한다.

2. PROBLEM FORMULATION

입력

 

$N$ 명의 화자

$M$ 개의 마이크 어레이

$s$ : 음성

$x$ : loudspeaker 입력

$y$ : 마이크 입력

$l$ : time sample index

$f_{NL}$ : louadspeaker의 non-liearitiy

$\mathbf{h}_i,\mathbf{h}_x$ : 각 화자와 loudspeaker에 대한 RIR

$\mathbf{v}$ : 배경 잡음

시스템

  • Reverberant clean speech를 추정함

3. BACKGROUND AND MOTIVATION

STFT domain

Narrow-band(NB)

각 주파수를 독립적으로 동일한 모델을 사용

장 : 최선의 spatial suppression [23]

단 : 연산량이 많고 느림

Full-band(FB)

모든 주파수를 한번에 → flattend and concatenated

장 : 모든 주파수를 한 step으로 처리

단 : overffiting[23] → 실제 시나리오에서 안좋음

Subband

성능과 연산량 사이의 trade-off를 다루기 위해 사용

최근 연구[24] 에서는 split and merge 방식의 레이어로 성능향상을 보임

하지만 기존의 SB 방식은 uniform하게 band를 분할함. 하지만 저주파 대역에서 음성 정보가 많기 때문에 전체 성능을 낮출 것임. 이에따라 mel-scale 기반의 non-uniform한 subband를 사용

4. PROPOSED MEL-SUBBAND BEAMFORMER

 

구성

  1. multi-channel feature extraction
  2. mask estimation module
  3. subband beamformer

모델 입력

M 채널 데이터와 1채널 loudspeaker reference

음향 샘플은 주파수 도메인으로 변환, STFT 연산을 수행하는 1-D conv layer를 사용.

log power spectrum(LPS)

inter-channel phase difference(IPD)

directional angle feature(DF)[13]

을 추출한 뒤에 CNN과 RNN을 거쳐서

input feature 생성

4.1 Mask estimation module

speech와 noise mask를 추정한다.

생성된 mask는 spatial covariance matrix(SCM)를 추정하는되 사용되고

이 SCM은 빔포밍 계수를 계산하는데 사용된다.

이전 연구에서 complex-valued ratio filter(cRFs)[25]가 다채널 SCM을 위해서는 더 좋은 성능을 낸다는 것을 보였다. 추가적으로 최근의 연구[14] 에서는 mixture와 echo 를 같이 사용하여 추정한 SCM이 빔포밍에는 더 좋은 것을 보였다.

따라서 1-D conv layers로 ‘cRFs’(mixture) 와 ‘cRFz’(echo)를 같이 추정한다.

$\tau$ : filter-taps for cRF

cRFz도 같은 방식으로 계산

[13] 에서 언급했듯이, layer normalization을 speech와 noise에 수행해야 더 좋은 성는과 빠른 수렴을 보인다.

4.2 Sub-band beamformer

 

[13]과 유사하게 추정된 speech와 noise의 SCM을 입력으로 받아서 beamforming weight를 출력한다. 이를 위해 SCM을 flatten and concatenate하여 각각의 TF bin에 대한 $D_{\text{in}}$ 차원의 벡터를 만든다.

$$
\mathbf{\Phi_{\tilde{S}\tilde{S}}} \in \mathbb{R}^{T \times F \times D_{in}}
$$

아래에서 묘사한대로 SCM을 K 개의 subband로 나눈다.

Mel-scale subband analysis

전체 spectrum을 전통적인 mel-scale 대로 $K$-subband로 나눈다.

$K$ 개의 2-D conv로 학습가능한 analysis filter를 각 subband에 대해서 독립적으로 구성한다.

$$
\forall k \in [0,K-1]
$$

개별 밴드에 대해서 E 차원으로 변환이 된다.

noise SCM $\mathbf{\Phi_{\tilde{Z}\tilde{Z}}}$ 에 대해서 같은 처리를 수행한다.

그 다음 SB를 모든 subnand에 대해서 SB-level multi-frame beamforming을 수행하는 unfied RNN-DNN($\mathcal{F}_{RD}$) layer를 통과시킨다.

$\tau$ : the filter taps of the estimated beamformer weights

$\mathbf{w}^k_{t,e,\tau}$ : subband multiframe beamforming weights for each zone in the car

추가적오르 Multi-Head Self-Attention(MHSA)[26]을 적용한다.

Mel-scale subband synthesis

추정된 SB-level beamformer weights를 2D conv로 학습가능한 subband synthesis filter 통해서 full-band로 변환한다.

그 다음 출력은 주파수 축에 대해서 concat되어서 full-band multi-channel mulit-frame beamformer weight로 도출된다.

weight를 적용하고

 

iSTFT 기능을 하는 1-D conv를 통과시켜서 추정된 time-domain 신호를 얻는다.

5. DATASET AND EXPERIMENTAL SETUP

5.1 Dataset

AISHELL-2[29] : AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale

와 AEC-Challenge[30] corpus를 사용,

10k 개의 차량환경에 대한 RIR 생성

2채널 11.8cm 간격의 선형 마이크.

RT60 0~ 0.6

추가적으로 AEC-Challenge[30]의 nonlinear distortion function을 사용하여 loudspeaker를 시뮬레이션

SNR : -40 ~ 15dB

signal to echo ratio : -10 ~ 10 dB

utterance 별로 데이터 생성

180K : 7.5L : 2K = train : dev : test

5.2 Experimental Setup

16kHz

n_fft = 512

n_hop = 256

4-second data

batch size : 12 ~ 24

SI-SNR[32] + MSE loss : 동일한 weight

모든 subband system은 파라매터가 5M 미만이되게 진행

30epoch

네트워크 전체에서

1-D conv 는 1x1 kernel

2-D conv는 3x1 kernel

cRF 추정의 filter tap은 3

MCMF의 filter tap은 5

제시된 모델을

  1. NB : traditional MVDR[10]
  2. NB : time-variant MVDR
  3. NB : GRNNBF[13]
  4. NB : robust NN based beamformer
  5. FB : LSTM+MHSA [27]
  6. FB : GRNNBf[13]
  7. FB : freq domain ConvTasNet
  8. SB : GRNNF

과 비교하였다.

6. RESULTS AND DISCUSSION

시뮬레이션한 test 데이터를 사용

Tencen API[33]로 ASR 성능 측정

1초 샘플에 대한 곱 연산 수행을 측정(MACs)

Subband Processing 에서 숫자는 subband의 수

traditional은 uniform

proposed 는 mel-scaled

Proposed Mel subband vs Traditional subband processing

mel-scaled로 subband를 구성한 것이 항상 unform 하게 한것보다 좋다.

Proposed Mel subband vs [NB & FB] processing

NB - GRNNBF가 모든 시스템보다 뛰어나지만

제시된 모델과 성능차이가 별로나지 않으면서 연산량이 5배이다.

FB는 연산량이 훨씬 적지만 그만큼 성능도 떨어진다.

In-Car Speaker Separation Demo

3화자 상황에서 실제 차량안 데이터를 취득해서 진행하였다.

https://vkothapally.github.io/Subband-Beamformer

현재 샘플 데이터 링크가 동작하지 않음

7. COLCLUSION

CPU연산량으로 동작이 가능한 ASR에서도 뛰어난 성능을 보이는 분리 네트워크를 제안하였다.

8. REFERENCES

[1] Fuliang Weng et al. “Conversational in-vehicle dialog systems: The past, present, and future”. In: IEEE Signal Processing Magazine 33.6 (2016), pp. 49–60.
[2] John HL Hansen et al. “" CU-Move": Analysis & Corpus
Development for Interactive In-Vehicle Speech Systems”.
In: Seventh European Conference on Speech Communication
and Technology. 2001.
[3] Timo Matheja and et al. “A dynamic multi-channel speech
enhancement system for distributed microphones in a car environment”. In: EURASIP Journal on Advances in Signal
Processing 1 (2013), pp. 1–21.
[4] Hiroshi Saruwatari et al. “Speech enhancement and recognition in car environment using blind source separation and
subband elimination processing”. In: (2003).
[5] Umit H Yapanel and John HL Hansen. “A new perspective on
feature extraction for robust in-vehicle speech recognition”.
In: Eighth European Conference on Speech Communication
and Technology. 2003.
[6] Joseph Caroselli and et al. Narayanan. “Cleanformer: A
microphone array configuration-invariant, streaming, multichannel neural enhancement frontend for ASR”. In: arXiv
preprint arXiv:2204.11933 (2022).
[7] Toshiro Yamada and et al. “In-vehicle speaker recognition using independent vector analysis”. In: 15th Intelligent Transportation Systems. IEEE. 2012, pp. 1753–1758.
[8] Tom O’Malley and et al. Narayanan. “A Universally-Deployable
ASR Frontend for Joint Acoustic Echo Cancellation, Speech
Enhancement, and Voice Separation”. In: arXiv preprint
arXiv:2209.06410 (2022).
[9] Tom O’Malley, Arun Narayanan, and et al. “A conformerbased asr frontend for joint acoustic echo cancellation,
speech enhancement and speech separation”. In: ASRU.
IEEE. 2021, pp. 304–311.
[10] Hakan Erdogan, John R Hershey, and et al. “Improved
MVDR beamforming using single-channel mask prediction
networks.” In: Interspeech. 2016, pp. 1981–1985.
[11] Zhuohuang Zhang, Yong Xu, and et al. “ADL-MVDR: All
deep learning MVDR beamformer for target speech separation”. In: ICASSP. 2021, pp. 6089–6093.
[12] Zhuohuang Zhang et al. “Multi-channel multi-frame ADLMVDR for target speech separation”. In: IEEE/ACM Transactions ASLP 29 (2021), pp. 3526–3540.
[13] Yong Xu et al. “Generalized spatio-temporal RNN beamformer for target speech separation”. In: arXiv preprint
arXiv:2101.01280 (2021).
[14] Vinay Kothapally et al. “Joint AEC AND Beamforming with
Double-Talk Detection using RNN-Transformer”. In: arXiv
preprint arXiv:2111.04904 (2021).
[15] Naohiro Tawara and et al. “Multi-Channel Speech Enhancement Using Time-Domain Convolutional Denoising Autoencoder.” In: INTERSPEECH. 2019, pp. 86–90.
[16] Panagiotis Tzirakis, Anurag Kumar, and Jacob Donley.
“Multi-channel speech enhancement using graph neural networks”. In: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
IEEE. 2021, pp. 3415–3419.
[17] Zhong-Qiu Wang and DeLiang Wang. “All-Neural MultiChannel Speech Enhancement.” In: Interspeech. 2018,
pp. 3234–3238.
[18] Bahareh Tolooshams et al. “Channel-attention dense u-net
for multichannel speech enhancement”. In: ICASSP 2020-
2020 IEEE International Conference on Acoustics, Speech
and Signal Processing (ICASSP). IEEE. 2020, pp. 836–840.
[19] Thomas Haubner and Walter Kellermann. “Deep LearningBased Joint Control of Acoustic Echo Cancellation, Beamforming and Postfiltering”. In: arXiv preprint arXiv:2203.01793
(2022).
[20] Xiaofei Li and Radu Horaud. “Narrow-band deep filtering
for multichannel speech enhancement”. In: arXiv preprint
arXiv:1911.10791 (2019).
[21] Changsheng Quan and Xiaofei Li. “Multi-Channel NarrowBand Deep Speech Separation with Full-Band Permutation
Invariant Training”. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2022, pp. 541–545.
[22] Changsheng Quan and Xiaofei Li. “Multichannel Speech
Separation with Narrow-band Conformer”. In: arXiv preprint
arXiv:2204.04464 (2022).
[23] Xiaofei Li and Radu Horaud. “Narrow-band deep filtering
for multichannel speech enhancement”. In: arXiv preprint
arXiv:1911.10791 (2019).
[24] Shubo Lv et al. “Dccrn+: Channel-wise subband dccrn with
snr estimation for speech enhancement”. In: arXiv preprint
arXiv:2106.08672 (2021).
[25] W. Mack and et al. “Deep filtering: Signal extraction and reconstruction using complex time-frequency filters”. In: IEEE
Signal Processing Letters 27 (2019), pp. 61–65.
[26] Ashish Vaswani et al. “Attention is all you need”. In: Advances in neural information processing systems 30 (2017).
[27] Rongzhi Gu et al. “End-to-end multi-channel speech separation”. In: arXiv preprint arXiv:1905.06286 (2019).
[28] Takuya Higuchi and et al. Kinoshita. “Frame-by-frame
closed-form update for mask-based adaptive MVDR beamforming”. In: ICASSP. IEEE. 2018, pp. 531–535.
[29] Jiayu Du and et al. Na. “Aishell-2: Transforming mandarin asr research into industrial scale”. In: arXiv preprint
arXiv:1808.10583 (2018).
[30] Kusha Sridhar, Ross Cutler, and et al. “ICASSP 2021 Acoustic Echo Cancellation Challenge: Datasets, Testing Framework, and Results”. In: ICASSP. 2021, pp. 151–155.
[31] Joachim Thiemann and et al. “The Diverse Environments
Multi-channel Acoustic Noise Database (DEMAND): A
database of multichannel environmental noise recordings”.
In: Proceedings of Meetings on Acoustics ICA. 2013.
[32] Yi Luo and Nima Mesgarani. “Conv-tasnet: Surpassing ideal
time–frequency magnitude masking for speech separation”.
In: IEEE/ACM TASLP 27.8 (2019), pp. 1256–1266.
[33] “Tencent ASR”. In: https://ai.qq.com/product/aaiasr.shtml
(2022).