欢迎访问 生活随笔!

凯发k8官方网

当前位置: 凯发k8官方网 > 前端技术 > html >内容正文

html

统计信号处理-凯发k8官方网

发布时间:2024/10/8 html 0 豆豆
凯发k8官方网 收集整理的这篇文章主要介绍了 统计信号处理_声学前端:深度学习算法和传统信号处理方法各有千秋 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

在十年前,声学前端(音频前处理)还主要是基于传统信号处理的方法,在很长的一段时间里,研究者们建立了一整套涵盖单通道和多通道的语音增强、语音分离、回声消除、声源定位、波束形成等技术,这些技术许多都是基于最优线性自适应滤波理论的。最近几年里,深度学习方法被引入到音频前处理领域,并在多个任务中(比如语音分离和增强)性能超越传统信号处理方法,展现了极大的潜力。不过到目前为止,我们看到两种方法各有千秋。他们的主要区别有以下几点:

  • 哲学思想上的区别。传统信号处理方法主要基于还原论(reductionism),把问题分割成一个个的子问题,并对子问题在设定的假设下进行一步步的细化,推导出解。每一步的分割、假设和推导都有迹可循。深度学习方法更像是中国传统的整体论(holism)哲学思想,关注的是端到端的性能,对中间结果往往不观注,而且中间状态常常没法解释。
  • 原理上的区别。传统信号处理方法大多是基于物理和数学原理推导的,而这些原理是基于人类几千年的认知发展而来,是人类智慧归纳演绎的结晶。这些原理放之四海而皆准,所以系统一般有比较好的鲁棒性。深度学习方法更多的是机器在特定训练集上基于iid假设针对某一个目标(比如降噪)而做的优化,性能的决定因素来自于训练集大小、训练集的代表性、使用的模型、训练过程和准则等,性能的变化范围较大,系统在新环境下鲁棒性较差。
  • 信息使用上的区别。传统信号处理方法主要使用当前信号,其他人类基于研究观察总结出的原理直接集成在算法中了。深度学习方法除了使用当前信号之外,还能(或还需要)充分使用采集到的(距离当前信号可能很久或很远的)训练集里的信息,事实上,深度学习方法的性能很大程度上取决于是否能有效利用训练集。尤其重要的是,深度学习方法可以非常容易地引入其他信息(比如视觉信息)并进行有效融合,这一点传统信号处理方法虽然也能做到,但是会困难很多,比如需要对信息源做独立假设,比如较难做有效的early fusion。
  • 假设上的区别。传统信号处理方法为了简化计算或获得解析解做了很多假设和简化,比如有限阶线性系统(滤波)假设、语音和噪声的复数域高斯分布假设、频带独立假设等等。而深度学习方法往往没有或不需要这些假设。事实上,深度学习方法的一个核心特定就是模型是复杂非线性的。不依赖这些假设和简化使得深度学习方法获得的模型能够更加符合复杂的现实场景,在有大量训练数据和较好模型设计的前提下有望取得更好的性能。
  • 使用环境和性能的区别。一般来说传统信号处理方法效果好的前提是所作的假设在使用场景下成立,并且滤波中使用到的统计量能够准确的估计。但是这两条在真实场景下往往不成立或很难做到,比如很难找到一个算法能够非常好的在各种场景下自适应估算语音和噪声的协方差(绝大多数算法都需要用到这两个统计量)。深度学习方法由于不需要这些假设,所以在训练数据充足的前提下有望在真实场景下获得比传统方法好得多的性能,这一点我们在语音降噪和分离(尤其在鸡尾酒会场景下)任务上已经见过很多报道。但是深度学习方法由于缺乏有效约束在训练数据不足的情形下鲁棒性往往比较差,最常见的表现就是在一个场景下表现优越的系统在另一个场景下可能很差。另外,深度学习方法的性能和优化指标很有关系,比如,以信噪比为主要优化指标的深度学习系统可能造成很大的信号失真,这些失真可能对语音识别不利。最后,目前来看,要取得较好的性能,基于深度学习的方法往往模型较大、计算资源要求较多,这些会限制系统在计算资源或能耗极端有限的系统中的使用。
  • 两种方法都有各自提升的空间。比如腾讯ai lab最近分析了传统信号处理方法做的假设和简化,提出了一系列改进的方案,相对于原有信号处理方法能够更好提升降噪和去混响的性能;我们也提出了一些结合传统信号处理方法和深度学习方法的优化方案,结合两者的长处,克服各自的短处,也取得了有意义的进展;我们还在结合多模态的语音分离/降噪技术中提出了一系列的新方法。

    在即将到来的 chime 2020 (https://chimechallenge.github.io/chime2020-workshop/ )workshop上, 我们会介绍其中的一些进展。相关的论文如下:

    有关语音分离/增强以及训练准则:

    • yong xu, meng yu, shi-xiong zhang, lianwu chen, chao weng, dong yu, “neural spatio-temporal filtering for target speech separation”, submitted to interspeech 2020

    • rongzhi gu, shi-xiong zhang, lianwu chen, yong xu, meng yu, dan su, yuexian zou, dong yu, "enhancing end-to-end multi-channel speech separation via spatial feature learning", icassp 2020

    • yong xu, chao weng, like hui, jianming liu, meng yu, dan su, dong yu, "joint training of complex ratio mask based beamformer and acoustic model for noise robust asr", icassp 2019

    • rongzhi gu, jian wu, shi-xiong zhang, lianwu chen, yong xu, meng yu, dan su, yuexian zou, and dong yu. "end-to-end multi-channel speech separation." arxiv preprint arxiv:1905.06286 (2019).

    有关基于多模态的 diarization和语音分离/提取/识别

    • rongzhi gu, shixiong zhang, yong xu, lianwu chen, yuexian zou, dong yu, “multi-modal multi-channel target speech separation”, ieee journal of selected topics in signal processing, 2020.

    • ke tan, yong xu, shixiong zhang, meng yu, dong yu, “audio-visual speech separation and dereverberation with a two-stage multimodal network”, ieee journal of selected topics in signal processing, 2020

    • jianwei yu, shixiong zhang, jian wu, shahram ghorbani, bo wu, shiyin kang, shansong liu, xunying liu, helen meng, dong yu, "audio-visual recognition of overlapped speech for the lrs2 dataset", icassp 2020

    • yifan ding, yong xu, shi-xiong zhang, yahuan cong, and liqiang wang "self-supervised learning for audio-visual speaker diarization." icassp 2020.

    • jian wu, yong xu, shi-xiong zhang, lianwu chen, meng yu, lei xie, dong yu, "time domain audio visual speech separation", asru 2019

    有关盲分离和只基于音频的目标语音提取

    • meng yu, xuan ji, bo wu, dan su, dong yu, “end-to-end multi-look keyword spotting”, submitted to interspeech 2020

    • xuan ji, meng yu, jie chen, jimeng zheng, dan su, dong yu, "integration of multi-look beamformers for multi-channel keyword spotting", icassp 2020

    • max w. y. lam, jun wang, dan su, dong yu, "mixup-breakdown: a consistency training method for improving generalization of speech separation models", icassp 2020.

    • xuan ji, meng yu, chunlei zhang, dan su, tao yu, xiaoyu liu, dong yu, "speaker-aware target speaker enhancement by jointly learning with speaker embedding extraction", icassp 2020.

    • aswin shanmugam subramanian, chao weng, meng yu, shi-xiong zhang, yong xu, shinji watanabe, dong yu, "far-field location guided target speech extraction using end-to-end speech recognition objectives", icassp 2020

    • fahimeh bahmaninezhad, shi-xiong zhang, yong xu, meng yu, john hl hansen, and dong yu. "a unified framework for speech separation." in submission to speech communications (2019).

    • rongzhi gu, lianwu chen, shixiong zhang, jimeng zheng, meng yu, yong xu, dan su, yuexian zou and dong yu, “neural spatial filter: target speaker speech separation assisted with directional information”, interspeech 2019

    • fahimeh bahmaninezhad, jian wu, rongzhi gu, shi-xiong zhang, yong xu, meng yu and dong yu, “a comprehensive study of speech separation: spectrogram vs waveform separation”, interspeech 2019

    • meng yu, xuan ji, yi gao, lianwu chen, jie chen, jimeng zheng, dan su, dong yu, "text-dependent speech enhancement for small-footprint robust keyword detection", interspeech 2018.

    • jun wang, jie chen, dan su, lianwu chen, meng yu, yanmin qian, dong yu, "deep extractor network for target speaker recovery from single channel speech mixtures", interspeech 2018

    总结

    以上是凯发k8官方网为你收集整理的统计信号处理_声学前端:深度学习算法和传统信号处理方法各有千秋的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得凯发k8官方网网站内容还不错,欢迎将凯发k8官方网推荐给好友。

    • 上一篇:
    • 下一篇:
    网站地图